ppo训练问题 #15

binbinyouli12 · 2024-07-26T05:23:25Z

你好，感谢你提供得代码，对我来说有很大帮助，但是我在用ppo得时候出现了点问题，我是一个初学者，我在训练得时候发现连续得ppo算法接入到我自定义得环境后他得每个episode得奖励都一模一样，网络给出得动作是不同但相差非常小，不知道为什么哪里出了问题

iimxinyi · 2024-10-13T14:58:04Z

请问您解决了吗，我也遇到了相同的问题

binbinyouli12 · 2024-10-16T07:39:13Z

请问您解决了吗，我也遇到了相同的问题

我换了sac的算法，但是我再改的时候发现我自定义环境有些地方有错误，你可以看看你环境有没有什么问题

iimxinyi · 2024-10-18T11:07:20Z

请问您解决了吗，我也遇到了相同的问题

我换了sac的算法，但是我再改的时候发现我自定义环境有些地方有错误，你可以看看你环境有没有什么问题

我根据issue里大家提的意见对PPO代码进行了一些修改，修改后的代码已上传至github。我测试下来这个代码可以收敛，如果您有需要可以参考，谢谢。
https://github.com/iimxinyi/Lightweight-Reinforcement-Learning/tree/main/SADRL/PPO

Provide feedback