强化学习
文章平均质量分 93
愤怒的可乐
主要研究NLP、深度学习、大模型。添加微信:greyfoss_szu 一起交流~,添加时请备注CSND。
展开
-
李宏毅深度强化学习导论——当奖励是稀疏的
本文介绍如何处理稀疏奖励问题。原创 2024-04-01 20:41:38 · 824 阅读 · 0 评论 -
李宏毅深度强化学习导论——演员-评论员
本文主要介绍演员-评论员(Actor-Critic)算法。原创 2024-03-26 08:32:07 · 777 阅读 · 0 评论 -
李宏毅深度强化学习导论——策略梯度
本文介绍了什么是策略梯度原创 2024-03-25 20:44:29 · 852 阅读 · 0 评论 -
李宏毅深度强化学习导论——基本概念
李宏毅强化学习简介原创 2024-03-21 22:33:01 · 1062 阅读 · 0 评论