强化学习_北_鱼的博客-CSDN博客

强化学习

关注

文章平均质量分 93

强化学习是一种机器学习方法，其目标是让智能体通过与环境的交互学习如何做出决策，以最大化累积奖励。在强化学习中，智能体通过尝试不同的行动来探索环境，并根据环境的反馈（奖励或惩罚）来调整自己的策略，从而逐渐学会做出更好的决策。

关注数：文章数：4 文章阅读量：4371 文章收藏量：63

作者: 北_鱼

这个作者很懒，什么都没留下…

展开

强化学习1：基本原理

一般机器学习分为有监督学习和无监督学习，它们的区分依据是用于训练的数据集中是否提供预期输出来指导学习。而强化学习不属于这两种里面的任何一个，因为他不需要事先准备数据集，而是通过与环境交互获取训练数据，然后通过一种称为奖励的概念来指导学习。

原创 2024-03-22 15:24:08 · 1409 阅读 · 1 评论
强化学习2：Q-learning 算法

Q-learning是一种基于强化学习的算法，用于解决智能体在未知环境中做出决策的问题。在Q-learning中，智能体通过不断地与环境交互，学习到一个值函数Q，该值函数表示在某个状态下采取某个动作所能获得的长期回报。通过不断地更新Q值，智能体能够逐步优化其策略，最终实现在未知环境中做出最优决策的目标。

原创 2024-04-17 21:14:51 · 1135 阅读 · 0 评论
强化学习3：SARSA 算法

SARSA算法是一个在线学习算法，它在每一步都更新值函数，因此可以在动态环境中实时学习最优策略。与Q-learning算法相比，SARSA算法考虑了代理在下一个状态下选择的动作，因此更适合用于需要考虑探索与利用平衡的任务。

原创 2024-04-22 15:24:24 · 912 阅读 · 1 评论
强化学习4：DQN 算法

深度 Q 网络（Deep Q-Network，DQN）是一种基于深度学习的强化学习算法，用于解决马尔科夫决策过程（MDP）中的控制问题。DQN算法结合了深度神经网络和Q-learning算法，通过近似值函数来学习最优策略。

原创 2024-05-22 11:04:40 · 918 阅读 · 0 评论

强化学习

作者: 北_鱼

强化学习1：基本原理

强化学习2：Q-learning 算法

强化学习3：SARSA 算法

强化学习4：DQN 算法