强化学习的概念及学习过程

最新推荐文章于 2024-05-28 18:01:24 发布

加油上学人

最新推荐文章于 2024-05-28 18:01:24 发布

阅读量2.6k

点赞数

分类专栏：机器学习文章标签：强化学习强化学习计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45885232/article/details/124134057

版权

机器学习专栏收录该内容

11 篇文章 1 订阅

订阅专栏

强化学习的概念
强化学习主要由智能体（agent）和环境（environment）两部分组成。智能体代表具有行为能力的物体，环境指智能体执行动作时所处的场景。其目标是寻找一个最优策略，使智能体在运动过程中获得的累积奖励最大。
强化学习图示
通俗的说：
强化学习算法通过不断的与用户进行交互，先推送少量的类似信息给用户，看用户的反馈，然后根据用户的反馈再推送相关的内容，并在后序交互过程中继续根据用户的反馈不断维护和更新上述内容。

学习过程
强化学习可以用四元组<S,A,P,R>表示，其中S为状态集合、A为动作集合、P为状态转移函数、R为奖励函数，其计算流程如下：

（1）在时刻 $t$ ，智能体所处状态为 $s_t \in S$ ,此时需要一定的策略policy从动作集合中选择一个动作 $a_t \in A$ 。动作的连续性和集合的大小会直接影响到后面的结果；

（2）在完成动作 $a_t$ 后，环境会给出一个强化信号 $r_t$ （奖励或者惩罚），经典的强化信号计算方法为:

$G_t$ = $r_t+r_{t+1}+...+\gamma^nr_{t+n}$

其中 $G_t$ 为奖励的回报， $\gamma$ 是衰减因子 $0\leq \gamma \leq 1$ , $n$ 是奖励的积累步骤，可以取到无限大。当 $\gamma=0$ 时，回报只考虑当下的奖励，当 $\gamma=1$ 时，回报会考虑整个过程的影响；

（3）动作 $a_t$ 同时会改变环境。从当前状态 $s_t$ 转移到下一状态 $s_{t+1}$ ，在此之后，智能体根据 $t + 1$ 时刻的状态 $s_{t+1}$ 选择下一个动作，进入下一个时间点的迭代。

加油上学人

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
强化学习的概念及学习过程

强化学习的概念强化学习主要由智能体（agent）和环境（environment）两部分组成。智能体代表具有行为能力的物体，环境指智能体执行动作时所处的场景。其目标是寻找一个最优策略，使智能体在运动过程中获得的累积奖励最大。通俗的说：强化学习算法通过不断的与用户进行交互，先推送少量的类似信息给用户，看用户的反馈，然后根据用户的反馈再推送相关的内容，并在后序交互过程中继续根据用户的反馈不断维护和更新上述内容。学习过程强化学习可以用四元组<S,A,P,R>表示，其中S为状态集合、A为动作集
复制链接

扫一扫

专栏目录

加油上学人 CSDN认证博客专家 CSDN认证企业博客

码龄5年

143: 原创

5万+: 周排名

1万+: 总排名

37万+: 访问

: 等级

3027: 积分

64: 粉丝

241: 获赞

141: 评论

1001: 收藏

私信

关注

热门文章

分类专栏

问题解决 64篇
pytorch 13篇
Ubuntu 13篇
机器学习 11篇
人工智能导论 1篇
知识图谱 10篇
NLP 9篇
刷题 59篇
统计学习方法 1篇
数据结构 3篇
论文阅读 8篇
OpenCV 18篇
小程序 2篇
数据分析 4篇
矩阵论

最新评论

OpenCV图像加载异常error: (-215:Assertion failed) size.width>0 && size.height>0 in function 'cv::imshow'
shadowonthehill: 牛牛牛！搞了半天双斜杠直接解决！
Ubuntu18.04下安装pytorch详细步骤
加油上学人: channels: - defaults show_channel_urls: true default_channels: - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2 custom_channels: conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud pytorch-lts: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
torch模型转onnx
加油上学人: pip install
”dpkg: 处理归档 /var/cache/apt/archives/XXXXXX(--unpack)时出错“的解决方法+ubuntu软件包损坏修复
qq_39578411: 你解决了吗
使用清华源安装opencv-python
程序小勇: 博主优质好文，技术分享到位，由浅入深，循序渐进，有深度，也不失广度.愿我们IT技术蓬勃发展，再创辉煌佳绩，相信有一天我们的技术也可以走向世界，改变世界。哈哈哈，已经三连，望互关互粉，谢谢！向大哥学习，请多多指教！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。