强化学习第一章学习笔记

最新推荐文章于 2024-04-25 15:23:46 发布

骑猪流浪江湖

最新推荐文章于 2024-04-25 15:23:46 发布

阅读量528

点赞数

分类专栏：算法文章标签：学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_47675950/article/details/124740829

版权

算法专栏收录该内容

8 篇文章 0 订阅

订阅专栏

强化学习笔记1：强化学习特点

目录
- 强化学习与监督学习的区别
- 强化学习的特征总结

1.强化学习处理的大多数是序列数据，其很难像监督学习的样本一样满足独立同分布
2.学习器并没有告诉我们每一步正确的动作应该是什么，学习器需要自己去发现哪些动作可以带来的最多奖励，只能通过不停地尝试来发现最有利的动作。
3.智能体获得自己能力的过程，其实是不停地试错探索的过程。探索和利用是强化学习中非常关心的问题，其中，探索指尝试一些新的动作，这些新的动作有可能会使我们得到更多的奖励，也有可能使我们一无所有。利用指采取已知的可以获得最多奖励的动作。重复执行这个动作，因为我们知道这样做可以获得一定的奖励。因此，我们需要在探索和利用之间做平衡，这也是监督学习中没有的情况。

强化学习的特征总结

1.强化学习会试错探索，它通过探索环境来获取对环境的理解。
2.强化学习智能体，会从环境中获得延迟的奖励。
3.在强化学习的训练过程中，时间非常重要，因为我们得到的是有时间关联的数据，而不是独立同分布的数据，在机器学习中，如果观测数据有非常强的关联，会使得训练非常不稳定。这也是为什么在监督学习中，我们希望数据尽量满足独立同分布，这样也就可以消除数据之间的相关性。
4.智能体的动作会影响到它随后得到的数据，这一点也非常关键。在训练智能体的过程中，很多时候我们也是通过正在学习的智能体与环境交互来得到数据的。所以如果训练过程中，智能体不能保持稳定，就会使得我们采集到的数据非常糟糕。我们通过数据来训练智能体，如果数据有问题，整个训练过程就会失败。所以强化学习中的一个非常重要的问题是，怎么让智能体的动作一直稳定地提升。

骑猪流浪江湖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习第一章学习笔记

强化学习笔记1：强化学习特点目录强化学习与监督学习的区别强化学习的特征总结目录强化学习与监督学习的区别1.强化学习处理的大多数是序列数据，其很难像监督学习的样本一样满足独立同分布2.学习器并没有告诉我们每一步正确的动作应该是什么，学习器需要自己去发现哪些动作可以带来的最多奖励，只能通过不停地尝试来发现最有利的动作。3.智能体获得自己能力的过程，其实是不停地试错探索的过程。探索和利用是强化学习中非常关心的问题，其中，探索指尝试一些新的动作，这些新的动作有可能会使我们得到更多的奖励，也有可能使我们一无
复制链接

扫一扫