强化学习第一章学习笔记

目录

强化学习与监督学习的区别

1.强化学习处理的大多数是序列数据,其很难像监督学习的样本一样满足独立同分布
2.学习器并没有告诉我们每一步正确的动作应该是什么,学习器需要自己去发现哪些动作可以带来的最多奖励,只能通过不停地尝试来发现最有利的动作。
3.智能体获得自己能力的过程,其实是不停地试错探索的过程。探索和利用是强化学习中非常关心的问题,其中,探索指尝试一些新的动作,这些新的动作有可能会使我们得到更多的奖励,也有可能使我们一无所有。利用指采取已知的可以获得最多奖励的动作。重复执行这个动作,因为我们知道这样做可以获得一定的奖励。因此,我们需要在探索和利用之间做平衡,这也是监督学习中没有的情况。

强化学习的特征总结

1.强化学习会试错探索,它通过探索环境来获取对环境的理解。
2.强化学习智能体,会从环境中获得延迟的奖励。
3.在强化学习的训练过程中,时间非常重要,因为我们得到的是有时间关联的数据,而不是独立同分布的数据,在机器学习中,如果观测数据有非常强的关联,会使得训练非常不稳定。这也是为什么在监督学习中,我们希望数据尽量满足独立同分布,这样也就可以消除数据之间的相关性。
4.智能体的动作会影响到它随后得到的数据,这一点也非常关键。在训练智能体的过程中,很多时候我们也是通过正在学习的智能体与环境交互来得到数据的。所以如果训练过程中,智能体不能保持稳定, 就会使得我们采集到的数据非常糟糕。我们通过数据来训练智能体,如果数据有问题,整个训练过程就会失败。所以强化学习中的一个非常重要的问题是,怎么让智能体的动作一直稳定地提升。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值