Redeeming Valid Stationary Distribution Correction from Semi-gradient DICE

This repository is the official implementation of Redeeming Valid Stationary Distribution Correction from Semi-gradient DICE.

Requirements

To install requirements:

pip install -r requirements.txt

Training

To train the model(s) in the paper, run this command:

python train_evaluation.py --env_name <env_name> --config configs/mujoco_config.

You can find the list of environments in environment.py file.

Reproduction

To reproduce the experiment on continuous environment, please run the following commands.

python train_evaluation.py \
    --env_name <env_name> \
    --config configs/mujoco_config \
    --divergence SoftChi \
    --initial_lambda 1.0 \
    --alpha <0.01, 0.1, 1.0, 10.0>,
    --cost_ub 40.0 \
    --gradient_penalty_coeff 0.01 \
    --lr_ratio 0.1 \
    --seed <42, 420, 4200>

Please note that reproducing off-policy evaluation is not available, due to incompatible API between different versions of Gym.

Evaluation

You can evaluate the model with the following command.

python train_evaluation.py --env_name <env_name> --ckpt_dir <checkpoint> --config configs/mujoco_config.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
configs		configs
wrappers		wrappers
README.md		README.md
actor.py		actor.py
common.py		common.py
critic.py		critic.py
dataset_utils.py		dataset_utils.py
debug.py		debug.py
divergence.py		divergence.py
environment.py		environment.py
evaluation.py		evaluation.py
learner.py		learner.py
policy.py		policy.py
requirements.txt		requirements.txt
train_evaluation.py		train_evaluation.py
value_net.py		value_net.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Redeeming Valid Stationary Distribution Correction from Semi-gradient DICE

Requirements

Training

Reproduction

Evaluation

About

Releases

Packages

Languages

ku-dmlab/CORSDICE

Folders and files

Latest commit

History

Repository files navigation

Redeeming Valid Stationary Distribution Correction from Semi-gradient DICE

Requirements

Training

Reproduction

Evaluation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages