Name		Name	Last commit message	Last commit date
parent directory ..
Mid-Term Test		Mid-Term Test
hw1		hw1
hw2		hw2
hw4		hw4
hw5		hw5
project		project
README.md		README.md

README.md

CS7309 强化学习理论与算法

本文件仅用于代码归档，不属于课程原始提交文件

简介

与本科课程非常相似
hw1: Cliff Walking Environment: policy iteration/value iteration
hw2: Cliff Walking Environment: q-learning/sarsa
Mid-Term Test(hw3): gym-maze: DQN
hw4: MountainCar: DQN/Double DQN
hw5: Pendulum: DDPG/A3C
project: 课程项目，详见project_requirements

文档目录

project/project_requirements.pdf: 课程项目要求
project/report.pdf: 课程项目报告

参考资料

gym/gymnasium
动手学强化学习
Hessel M, Modayil J, Van Hasselt H, et al. Rainbow: Combining improvements in deep reinforcement learning[C]//Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1).