强化学习
文章平均质量分 93
武乐乐~
积跬步,至千里。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习入门:价值、回报、策略概念详解
本文只是介绍了一部分概念,后续会逐步添加新的概念,从感性上认识下RL的一些基础概念。原创 2025-06-14 21:59:50 · 1160 阅读 · 0 评论 -
强化学习入门:交叉熵方法实现CartPole智能体
在本文中,我们简单介绍了交叉熵方法具体的训练流程,以及如何用交叉熵算法来实现CartPole智能体。下篇介绍Bellman方程,敬请期待。原创 2025-06-11 22:03:39 · 967 阅读 · 0 评论 -
强化学习入门:交叉熵方法数学推导
本篇的公式比较多,我也有点儿懵逼,可以不用深入理解。下一篇将交叉熵方法用到CartPole智能体看看效果变得如何。原创 2025-06-08 21:44:37 · 1023 阅读 · 0 评论 -
强化学习入门:Gym实现CartPole随机智能体
如下图所示:CartPole游戏就是平衡木游戏:游戏中,智能体需要控制左或者右动作来维持平衡,当然,这个环境的观察是4个浮点数,包含了木棒质点的x坐标、速度、与平台的角度以及角速度的信息。由于目前还没有学习到RL算法,因此,本文首先借助Gym实现一个随机智能体。本篇只是用gym实现了一个简单的CartPole智能体,无须担心,后面博客会介绍用其余RL算法来逐渐改进这个智能体。原创 2025-06-05 21:58:00 · 462 阅读 · 0 评论 -
强化学习入门:RL开发框架Gym简介
本篇主要从代码角度介绍了RL的一些基本组件,以及Gym的基类,后面会提供实际代码,从实战中才能掌握Gym框架。原创 2025-05-21 22:17:59 · 607 阅读 · 0 评论 -
强化学习入门:马尔科夫奖励过程二
最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。马克西姆的《深度强化学习实践》。马尔科夫奖励过程总结下强化学习用到的术语:首先有状态空间S、状态概率转移矩阵、奖励、回报是奖励的期望,动作矩阵,策略则是动作的概率分布。最终希望得到一个聪明的智能体,让其能够学会选择好的策略,进而得到最大的回报。原创 2025-05-17 16:45:38 · 1085 阅读 · 0 评论 -
强化学习入门:马尔科夫奖励过程
最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。马克西姆的《深度强化学习实践》。本篇只是介绍下强化学习的回报和状态价值定义,让读者能从感性角度对其有个理解,下篇介绍在马尔科夫奖励过程中引入动作和策略。原创 2025-05-15 21:59:51 · 1119 阅读 · 0 评论 -
强化学习入门:马尔科夫过程
最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。马克西姆的《深度强化学习实践》。马尔可夫过程(Markov Process,MP),包含了:一组状态(S),系统可以处于任一状态。一个转移矩阵(T),通过转移概率定义了系统的动态。马尔科夫要求现在状态只和他的前一个状态有关。原创 2025-05-11 12:04:59 · 964 阅读 · 0 评论
分享