继《蘑菇书EasyRL》之后,我们对于想要更多地深入了解强化学习实践的读者准备了一套全新的教程,帮助读者快速入门强化学习的代码实践,并辅以一套开源代码框架JoyRL
,便于读者适应业界应用研究风格的代码。
与《蘑菇书》的区别:
- 《蘑菇书》知识体系更加详细丰富,适合零基础的读者,而本教程侧重对强化学习核心理论的凝练和串联,注重简明内容,适合有一定基础的读者。
- 《蘑菇书》偏向理论讲解,适合做研究工作的读者,而本教程侧重服务于代码时间,会包含一些实际应用中的技巧和经验,适合做工程应用的读者。
- 《蘑菇书》代码主要是一些经典算法在一些简单环境下的实现,注重对理论的阐释,而本教程则会包含更多的算法和环境,例如
SoftQ
、RainbowDQN
等,代码内容更偏向业界风格。除此之外,本教程还开发一套开源框架joyrl,便于读者应用到更复杂以及自定义的环境中,适合做交叉应用的读者。
JoyRL旨在建立一套帮助初学者或交叉学科研究者快速入门强化学习的代码生态。它以PiP
包的形式开发开源框架,英文注释,会比离线版更加集成,更加高效,并且会去掉一些实际并不常用的基础算法,例如Q-learning
等等,适合需要大规模环境应用的读者进阶使用。
此外,本书中的演示代码会在以Jupyter Notebook
的形式呈现,具体在notebooks文件夹中。
地址:https://datawhalechina.github.io/joyrl-book/
章节 | 关键内容 |
---|---|
第一章 绪论 | |
第二章 马尔可夫决策过程 | 马尔可夫决策过程、状态转移矩阵 |
第三章 动态规划 | 贝尔曼方程、策略迭代、价值迭代 |
第四章 免模型预测 | 蒙特卡洛、时序差分 |
第五章 免模型控制 | Q-learning 算法、Sarsa 算法 |
第六章 深度学习基础 | 神经网络、梯度下降 |
第七章 DQN算法 | DQN 算法、目标网络、经验回放 |
第八章 DQN算法进阶 | Double DQN、Dueling DQN、PER DQN |
第九章 策略梯度 | 随机性策略、REINFORCE |
第十章 Actor-Critic算法 | A2C、A3C |
第十一章 DDPG算法 | DDPG、TD3 |
第十二章 PPO算法 | 重要性采样、PPO |
第十三章 SAC算法 | 最大熵强化学习、Soft Q、SAC |
JoyRL 中文文档 | |
练习题解答 |
John Jim 教程设计与算法实战 |
Qi Wang 教程设计 |
Yiyuan Yang 教程设计 |
- 协助编辑与校对。@AzulaFire
扫描下方二维码关注公众号:Datawhale,回复关键词“强化学习”,即可加入“EasyRL & JoyRL 读者交流群”