Deep Reinforcement Learning Algorithms

RL algorithms with pytorch.

Algorithms

Q-learning
Deep Q-Network (DQN)
Deep Deterministic Policy Gradient (DDPG)
(Asynchronous) Advantage Actor-Critic (A3C/A2C)
Trust Region Policy Optimization (TRPO)
Proximal Policy Optimization (PPO)

Improvements

Prioritized Experience Replay
Hindsight Experience Replay
Count-based Exploration

Problems and Contributions

Feel free to open an issue or a pull request.