![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 93
愤怒的可乐
主要研究NLP、机器瞎学、大模型。添加微信:greyfoss_szu 一起交流~,添加时请备注CSND。
展开
-
李宏毅深度强化学习导论——当奖励是稀疏的
本文介绍如何处理稀疏奖励问题。原创 2024-04-01 20:41:38 · 685 阅读 · 0 评论 -
李宏毅深度强化学习导论——演员-评论员
本文主要介绍演员-评论员(Actor-Critic)算法。原创 2024-03-26 08:32:07 · 727 阅读 · 0 评论 -
李宏毅深度强化学习导论——策略梯度
本文介绍了什么是策略梯度原创 2024-03-25 20:44:29 · 750 阅读 · 0 评论 -
李宏毅深度强化学习导论——基本概念
李宏毅强化学习简介原创 2024-03-21 22:33:01 · 955 阅读 · 0 评论