在仿真easyrl书中的ddpg算法遇到的问题 #175

yxz777 · 2023-11-07T12:24:42Z

yxz777
Nov 7, 2023

按照ddpg算法伪码以及代码中的定义，actorloss应该是-q，criticloss为目标网络与实际网络的差值。
在训练的过程中，actorloss在不断的上升，criticloss也上下飘忽不定
那这样也就意味着actor网络输出动作的q值是越来越小的，criticloss也无法达到一个稳定的loss
所以评判agent学习的好坏要看奖励的增减还是loss的收敛呢？

Answered by johnjim0816

Nov 13, 2023

按照ddpg算法伪码以及代码中的定义，actorloss应该是-q，criticloss为目标网络与实际网络的差值。在训练的过程中，actorloss在不断的上升，criticloss也上下飘忽不定那这样也就意味着actor网络输出动作的q值是越来越小的，criticloss也无法达到一个稳定的loss 所以评判agent学习的好坏要看奖励的增减还是loss的收敛呢？

看奖励，loss根据具体算法不同会有不同特性，用动作熵评估更好

View full answer

johnjim0816 · 2023-11-13T02:43:29Z

johnjim0816
Nov 13, 2023

按照ddpg算法伪码以及代码中的定义，actorloss应该是-q，criticloss为目标网络与实际网络的差值。在训练的过程中，actorloss在不断的上升，criticloss也上下飘忽不定那这样也就意味着actor网络输出动作的q值是越来越小的，criticloss也无法达到一个稳定的loss 所以评判agent学习的好坏要看奖励的增减还是loss的收敛呢？

看奖励，loss根据具体算法不同会有不同特性，用动作熵评估更好

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

在仿真easyrl书中的ddpg算法遇到的问题 #175

{{title}}

Replies: 1 comment

{{title}}

Select a reply

在仿真easyrl书中的ddpg算法遇到的问题 #175

yxz777 Nov 7, 2023

Replies: 1 comment

johnjim0816 Nov 13, 2023

yxz777
Nov 7, 2023

johnjim0816
Nov 13, 2023