第五章SARSA算法描述是否有误 #44

txsniper · 2022-07-19T00:46:25Z

SARSA 训练流程：
4. 根据当前策略做抽样： a˜t+1 ∼ πnow( · j st+1)。注意， a˜t+1 只是假想的动作，智能体
不予执行

看其他资料
SARSA算法在本次迭代后，会用 a˜t+1 更新 a（也就是说下一步一定会在s˜t+1 执行a˜t+1）：
s = s˜t+1
a = a˜t+1

wangshusen · 2022-07-19T03:47:27Z

不对的。策略随时会更新，不能保证 t+1 时刻的动作是a˜t+1

txsniper · 2022-07-19T15:42:58Z

每次迭代的最后一步就是给s和a赋值；相反，Q-learning才是下一次动作需要重新采样确定的

wangshusen · 2022-07-24T03:46:53Z

他们这种写法真的不严谨。。。需要假设policy不变，才能像他们这样实现

Provide feedback