这是我个人总结的最快速的强化学习入门路径了,一共需要花费6天时间。
(1)白话强化学习:用大白话教会强化学习算法 by 张斯俊:耗时2天
入门先看这个:白话强化学习:用大白话教会强化学习算法 by 张斯俊,从最早的一直往前看。
当看完番外篇 DuelingDQN为何那么强?(附代码及代码分析)这一章后,它下一章如何理解策略梯度(Policy Gradient)算法?(附代码及代码解释)讲的不是很清楚,就先暂停看该系列。
(2)李宏毅深度强化学习(国语)课程(2018):耗时0.5天
此时可以看李宏毅讲强化学习的课程李宏毅深度强化学习(国语)课程(2018),先只需要看其中的前两节:
(3)白话强化学习:用大白话教会强化学习算法 by 张斯俊:耗时2天
然后看完这个,再返回头去看白话强化学习:用大白话教会强化学习算法 by 张斯俊,从如何理解策略梯度(Policy Gradient)算法?(附代码及代码解释)一直看到你有一份强化学习线路图,请查收。(原题:看我如何一文从马可洛夫怼到DPPO)。
(4)莫凡Python:Distributed Proximal Policy Optimization (DPPO):耗时1天
看莫凡Python的DPPO的教程莫凡Python:Distributed Proximal Policy Optimization (DPPO),里面讲了如何用gym环境自己写一个双臂机器人的环境从头开始做一个机器手臂1 搭建结构,以及对应的DPPO算法(输出两个连续控制量)Reinforcement-learning-with-tensorflow/experiments/Robot_arm。