Related Papers

A3C

Asynchronous Methods for Deep Reinforcement Learning
ACER

Sample Efficient Actor-Critic with Experience Replay
TRPO

Trust Region Policy Optimization
PPO

Proximal Policy Optimization Algorithms
ICM

Curiosity-driven Exploration by Self-supervised Prediction
RND

Exploration by Random Network Distillation
DDPG

Continuous control with deep reinforcement learning
TD3

Addressing Function Approximation Error in Actor-Critic Methods
SAC

Soft Actor-Critic Algorithms and Applications

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

Soft Actor-Critic for Discrete Action Settings
DSAC

DSAC: Distributional Soft Actor Critic for Risk-Sensitive Reinforcement Learning

Provide feedback