RL笔记_强化学习与监督学习的一些区别

最新推荐文章于 2024-08-25 22:51:38 发布

WangSampson

最新推荐文章于 2024-08-25 22:51:38 发布

阅读量2.6k

点赞数

分类专栏： RL笔记文章标签： RL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wsr123wsrwsr/article/details/52804166

版权

RL笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

强化学习的trial-error模式要求agent去探索环境，然后对状态进行evaluate，在每一个状态下agent可以选择多种action，每次选择的依据可以是贪婪或者softmax等，但是得到的reward是无法表明当前的选择是正确的还是错误的，得到的只是一个score，监督学习的labels可以给agent简洁明了的correct or wrong，并且在agent 在对环境充分的探索前即在每一种状态下选择的每个action的次数不够多时，无法充分求expect，并且在action之间也无法进行对比择优。但是当监督学习的label信息有噪声干扰或者是利用一些active learning 获得到的labels的时候，强化学习的agent与环境直接交互获取到的信息是更加可靠。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

WangSampson CSDN认证博客专家 CSDN认证企业博客

码龄12年

14: 原创

42万+: 周排名

127万+: 总排名

3万+: 访问

: 等级

438: 积分

9: 粉丝

8: 获赞

10: 评论

27: 收藏

私信

关注

热门文章

分类专栏

最新评论

Adams-Matlab联合仿真Forces反馈的一些注意事项
cuelily: 为什么我照做了还是没法实现力反馈呢？还是无法在matlab里面输出力
ROS下利用 moveit 控制gazebo模型并在rviz中显示的探索总结
努力1努力1再努力: 博主，您好~我运行roslaunch ur3_moveit_config ur3_moveit_planning_execution.launch 终端输出:[ WARN] [1567412997.149289598]: Skipping virtual joint 'fixed_base' because its child frame 'base_link' does not match the URDF frame 'world' 您知道怎么改正吗?谢谢您啦~您辛苦啦~~~~
ROS下利用 moveit 控制gazebo模型并在rviz中显示的探索总结
GDB_er: 博主博主，您好！文章后半部分怎么没了呀，做到修改controllers.yaml后面的没有了，我就不会了。想看后面的内容～～～～谢谢博主大大
Ubuntu14.04下openni2以及nite2的配置-kinectv1篇
lwheshi: 大神，想请教你以下，我的骨骼数据也能输出，但是我的相机坐标系感觉有点偏了，并且经常会误检测，把很多不是人的东西检测成人
ROS下利用 moveit 控制gazebo模型并在rviz中显示的探索总结
普通网友: 博主您好做moveit和gazebo联合的时候会出现提示 Action client not connected: arm/arm_joint_controller/follow_joint_trajectory 订阅信息中也没有follow_joint_trajectory的消息，请问该如何解决。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。