难道没人发现其实就是两个一摸一样的模型，一个训练好的去训练另一个没训练的嘛... #13

46319943 · 2022-04-12T00:01:54Z

而这个训练好的模型是根据图片输出操作列表...即一个多分类器

46319943 · 2022-04-12T00:05:39Z

也算是知识蒸馏了😏

f200ten · 2023-09-07T09:31:21Z

多分类器吗...我还以为是强化学习T_T

wwwsctvcom · 2024-07-24T08:43:01Z

一个模型是计算reward的值，一个模型是用于分类，PPO算法本身就是这样的

46319943 · 2024-07-24T08:55:44Z

一个模型是计算reward的值，一个模型是用于分类，PPO算法本身就是这样的

PPO算法确实是这样的。但是这个代码并不是。不建议阅读并参考这份代码，纯属浪费时间。

46319943 changed the title ~~难道没人发现其实就是用一个训练好的模型去训练另一个模型嘛...~~ 难道没人发现其实就是两个一摸一样的模型，一个训练好的模型去训练另一个没训练好的嘛... Apr 12, 2022

46319943 changed the title ~~难道没人发现其实就是两个一摸一样的模型，一个训练好的模型去训练另一个没训练好的嘛...~~ 难道没人发现其实就是两个一摸一样的模型，一个训练好的去训练另一个没训练的嘛... Apr 12, 2022

Provide feedback