Skip to content

Latest commit

 

History

History
68 lines (53 loc) · 5.18 KB

README.md

File metadata and controls

68 lines (53 loc) · 5.18 KB

GitHub issues GitHub stars GitHub forks GitHub license

JoyRL Book

《蘑菇书》之后,我们对于想要更多地深入了解强化学习实践的读者准备了一套全新的教程,全书主要基于笔者“不那么丰富可是也有一点咯”的实践经验,帮助读者快速入门强化学习的代码实践,并辅以一套开源代码框架JoyRL,便于读者适应业界应用研究风格的代码。

与《蘑菇书》不同,本教程侧重对强化学习核心理论的提点和串联,以及对于强化学习代码实践的指导,尽可能还原原论文的主要思想,而不是对于理论的详细讲解。因此,《蘑菇书》适合适合细嚼慢咽的读者,而本教程则适合具有一定编程基础且希望快速进入实践应用的读者。

关于JoyRL

JoyRL旨在建立一套帮助初学者或交叉学科研究者快速入门强化学习的代码生态。它以PiP包的形式开发开源框架,英文注释,会比离线版更加集成,更加高效,并且会去掉一些实际并不常用的基础算法,例如Q-learning等等,适合需要大规模环境应用的读者进阶使用。

此外,本书中的演示代码会在以Jupyter Notebook的形式呈现,具体在notebooks文件夹中。

在线阅读(内容实时更新)

地址:https://johnjim0816.com/joyrl-book/

内容导航

章节 关键内容
第一章 绪论
第二章 马尔可夫决策过程 马尔可夫决策过程、状态转移矩阵
第三章 动态规划 贝尔曼方程、策略迭代、价值迭代
第四章 免模型预测 蒙特卡洛、时序差分
第五章 免模型控制 Q-learning 算法、Sarsa 算法
第六章 深度学习基础 神经网络、梯度下降
第七章 DQN算法 DQN 算法、目标网络、经验回放
第八章 DQN算法进阶 Double DQN、Dueling DQN、PER DQN
第九章 策略梯度 随机性策略、REINFORCE
第十章 Actor-Critic算法 A2C、A3C
第十一章 DDPG算法 DDPG、TD3
第十二章 PPO算法 重要性采样、PPO
第十三章 SAC算法 最大熵强化学习、Soft Q、SAC
练习题解答

主要贡献者

pic
John Jim

教程设计与算法实战
北京大学硕士
网易伏羲算法工程师

pic
Qi Wang

教程设计
上海交通大学博士生
中国科学院大学硕士

pic
Yiyuan Yang

教程设计
牛津大学博士生
清华大学硕士

特别感谢

关注我们

扫描下方二维码关注公众号:Datawhale,回复关键词“强化学习”,即可加入“EasyRL & JoyRL 读者交流群”

Datawhale是一个专注AI领域的开源组织,以“for the learner,和学习者一起成长”为愿景,构建对学习者最有价值的开源学习社区。关注我们,一起学习成长。