【学习笔记1】ppo算法中的损失、奖励的含义

最新推荐文章于 2024-06-06 21:34:27 发布

一只_程序媛

最新推荐文章于 2024-06-06 21:34:27 发布

阅读量765

点赞数 2

文章标签：学习笔记算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47894469/article/details/137056578

版权

score_train

这个指标代表在训练过程中，代理模型在训练集上的性能表现。具体来说，它可能表示代理模型在与环境交互并执行动作时所获得的奖励总和，或者是某种其他形式的性能度量。

其目标是随着训练的进行逐步提升，表示代理模型在学习过程中不断改善其在训练数据上的表现。通过监控score_train的变化，可以了解代理模型的训练进展情况，并据此调整训练过程的参数或策略，以获得更好的训练结果

pg_loss

是指策略梯度损失，它衡量了当前策略相对于预期行为的误差。在PPO中，这通常是通过最大化或最小化预期回报的方式来更新策略网络的参数。PG Loss 通常是通过对采样的轨迹进行策略评估和优化而计算得到的。

vf_loss

是指值函数损失，它衡量了值函数估计与真实值之间的误差。在PPO中，通常会使用基于值函数的优势估计来计算PG Loss，而VF Loss 则用于优化值函数网络，以最小化值函数的估计误差。

loss

是指PPO算法中的总体损失，通常由PG Loss 和 VF Loss 组成，可能还包括一些额外的正则化项。PPO 算法旨在通过优化总体损失来同时改进策略和值函数网络。

mean_reward

是指在一段时间内，智能体在环境中获得的平均奖励值。在PPO中，通常会监视平均奖励的变化，以评估算法的性能和学习进度。

一只_程序媛

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记1】ppo算法中的损失、奖励的含义

通过监控score_train的变化，可以了解代理模型的训练进展情况，并据此调整训练过程的参数或策略，以获得更好的训练结果。在PPO中，这通常是通过最大化或最小化预期回报的方式来更新策略网络的参数。在PPO中，通常会使用基于值函数的优势估计来计算PG Loss，而VF Loss 则用于优化值函数网络，以最小化值函数的估计误差。是指PPO算法中的总体损失，通常由PG Loss 和 VF Loss 组成，可能还包括一些额外的正则化项。在PPO中，通常会监视平均奖励的变化，以评估算法的性能和学习进度。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。