强化学习学习路径

返回上层目录
最快速的强化学习入门路径

最快速的强化学习入门路径

这是我个人总结的最快速的强化学习入门路径了，一共需要花费6天时间。

（1）白话强化学习：用大白话教会强化学习算法 by 张斯俊：耗时2天

入门先看这个：白话强化学习：用大白话教会强化学习算法 by 张斯俊，从最早的一直往前看。

当看完番外篇 DuelingDQN为何那么强？(附代码及代码分析)这一章后，它下一章如何理解策略梯度（Policy Gradient）算法？（附代码及代码解释）讲的不是很清楚，就先暂停看该系列。

（2）李宏毅深度强化学习(国语)课程(2018)：耗时0.5天

此时可以看李宏毅讲强化学习的课程李宏毅深度强化学习(国语)课程(2018)，先只需要看其中的前两节：

（3）白话强化学习：用大白话教会强化学习算法 by 张斯俊：耗时2天

然后看完这个，再返回头去看白话强化学习：用大白话教会强化学习算法 by 张斯俊，从如何理解策略梯度（Policy Gradient）算法？（附代码及代码解释）一直看到你有一份强化学习线路图，请查收。(原题：看我如何一文从马可洛夫怼到DPPO)。

（4）莫凡Python：Distributed Proximal Policy Optimization (DPPO)：耗时1天

看莫凡Python的DPPO的教程莫凡Python：Distributed Proximal Policy Optimization (DPPO)，里面讲了如何用gym环境自己写一个双臂机器人的环境从头开始做一个机器手臂1 搭建结构，以及对应的DPPO算法（输出两个连续控制量）Reinforcement-learning-with-tensorflow/experiments/Robot_arm。