项目任务 基于强化学习中的策略梯度方法PolicyGradient解决打乒乓球游戏问题。预期效果:分数从-21开始逐渐上涨收敛,Test reward的分数可以收敛到0分以上(说明打败对方了),越高越好。该项目使用百度的PaddlePaddle框架在百度的在线平台aistudio上完成。 Step1 安装依赖 Step2 导入依赖 Step3设置超参数 Step4 搭建Model、Algorithm、Agent架构 网络模型采用全连接神经网络。 直接使用百度强化学习库parl中的策略梯度算法。