强化学习reinforcement learning

最新推荐文章于 2024-04-13 17:50:52 发布

Big Liu(big liu)

最新推荐文章于 2024-04-13 17:50:52 发布

阅读量462

点赞数

分类专栏：强化学习文章标签： 1024程序员节强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46791639/article/details/109254055

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

强化学习入门到精通

提示：我会不定期更新我的所有文章，我会把我学习过程中觉得不错的内容不定时添加进去，希望大家可以收藏，或许每次看到更新的内容都有不同的理解。我会发布（深度学习&强化学习&深度强化学习&联邦学习的内容）
第一章强化学习基本概念

文章目录

强化学习入门到精通
前言
一、强化学习基本内容
- 1. 强化学习结构图
- 2. 基本概念
二、已知模型&未知模型
- 1.已知模型
总结

前言

强化学习又称为再励学习或评价学习，采用类似于人类和动物学习中的试错机制，通过不断获取外部环境的反馈信息优化调整计算模型或动作行为，实现对序贯决策问题的优化求解。由于外部环境反馈信息的形式和内容比样本数据更加灵活广泛且可以在线获取，故强化学习具有非常广泛的应用前景，被认为是一种最接近人类学习行为的学习方法。

提示：以下是本篇文章正文内容，下面案例可供参考

一、强化学习基本内容

1. 强化学习结构图

结构图如下：

图片来源“汪荣贵教授”

2. 基本概念

1.状态值函数也就是策略π（状态映射到行为，通俗讲：本质上，策略函数是表示在每个状态执行什么行为；最终目标是找到在每个状态指定正确行为的最优策略，从而使得奖励最大化）
2.状态值函数：执行策略后状态的值，确定了策略π下从状态s开始的期望回报。
3.状态~行为值函数（Q函数）：
4.值函数，Q函数的贝尔曼方程通过它来求解最优策略

二、已知模型&未知模型

1.已知模型

已知模型强化学习（即已知转移概率和奖励概率）：动态规划求解：值迭代策略迭代两算法求解贝尔曼方程
未知模型强化学习（不知道转移概率和奖励概率）：蒙特卡罗方法，未知环境最优策略适合情景任务，情景过长不行
时间差分，属于未知模型

总结

目前更新暂不完善，但我会一直更新下去。

Big Liu(big liu)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习reinforcement learning

强化学习入门到精通提示：我会不定期更新我的所有文章，我会把我学习过程中觉得不错的内容不定时添加进去，希望大家可以收藏，或许每次看到更新的内容都有不同的理解。我会发布（深度学习&强化学习&深度强化学习&联邦学习的内容）第一章强化学习基本概念文章目录强化学习入门到精通前言一、强化学习基本内容1. 强化学习结构图2. 基本概念二、已知模型&未知模型1.已知模型总结前言强化学习又称为再励学习或评价学习，采用类似于人类和动物学习中的试错机制，通过不断获取外部环境的反
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。