JoyRL Book

继《蘑菇书》之后，我们对于想要更多地深入了解强化学习实践的读者准备了一套全新的教程，全书主要基于笔者“不那么丰富可是也有一点咯”的实践经验，帮助读者快速入门强化学习的代码实践，并辅以一套开源代码框架JoyRL，便于读者适应业界应用研究风格的代码。

与《蘑菇书》不同，本教程侧重对强化学习核心理论的提点和串联，以及对于强化学习代码实践的指导，尽可能还原原论文的主要思想，而不是对于理论的详细讲解。因此，《蘑菇书》适合适合细嚼慢咽的读者，而本教程则适合具有一定编程基础且希望快速进入实践应用的读者。

关于`JoyRL`

JoyRL旨在建立一套帮助初学者或交叉学科研究者快速入门强化学习的代码生态。它以PiP包的形式开发开源框架，英文注释，会比离线版更加集成，更加高效，并且会去掉一些实际并不常用的基础算法，例如Q-learning等等，适合需要大规模环境应用的读者进阶使用。

此外，本书中的演示代码会在以Jupyter Notebook的形式呈现，具体在notebooks文件夹中。

章节	关键内容
第一章绪论
第二章马尔可夫决策过程	马尔可夫决策过程、状态转移矩阵
第三章动态规划	贝尔曼方程、策略迭代、价值迭代
第四章免模型预测	蒙特卡洛、时序差分
第五章免模型控制	Q-learning 算法、Sarsa 算法
第六章深度学习基础	神经网络、梯度下降
第七章 DQN算法	DQN 算法、目标网络、经验回放
第八章 DQN算法进阶	Double DQN、Dueling DQN、PER DQN
第九章策略梯度	随机性策略、REINFORCE
第十章 Actor-Critic算法	A2C、A3C
第十一章 DDPG算法	DDPG、TD3
第十二章 PPO算法	重要性采样、PPO
第十三章 SAC算法	最大熵强化学习、Soft Q、SAC
练习题解答

John Jim

教程设计与算法实战
北京大学硕士
网易伏羲算法工程师

Qi Wang

教程设计
上海交通大学博士生
中国科学院大学硕士

Yiyuan Yang

教程设计
牛津大学博士生
清华大学硕士

扫描下方二维码关注公众号：Datawhale，回复关键词“强化学习”，即可加入“EasyRL & JoyRL 读者交流群”