DQN的代码中，计算q_target时未考虑done为true的情况 #200

ananasfl · 2022-04-20T06:44:14Z

请问Morvan, DQN的代码中，计算q_target时，是否未考虑done为True的情况，即q_target = Reward?
存储在Replay memory中的经验也未包含done。请问为什么呢？

ccconquer · 2024-05-31T09:02:01Z

请问有想到怎么考虑done=True的情况吗，如果在memory里存储经验包含done，那怎么解决随机取batch_size得到两个及以上done的情况？

Provide feedback