为什么我用DDPG去做一个多目标优化,然后训练步数是3000步的时候critic是下降的,action的值也有变化,可是步数越大critic就上升了,然后action全部输出边界值。有没有哪位大佬能指点一下。
DDPG多目标优化,求助!
于 2024-03-16 12:55:17 首次发布
作者在使用深度DeterministicPolicyGradient(DDPG)进行多目标优化时遇到问题:在训练过程中,随着步数增加,critic值先降后升,action输出接近边界值。寻求对这种反常现象的解释和指导。
摘要由CSDN通过智能技术生成