强化学习笔记1:强化学习特点
目录
强化学习与监督学习的区别
1.强化学习处理的大多数是序列数据,其很难像监督学习的样本一样满足独立同分布
2.学习器并没有告诉我们每一步正确的动作应该是什么,学习器需要自己去发现哪些动作可以带来的最多奖励,只能通过不停地尝试来发现最有利的动作。
3.智能体获得自己能力的过程,其实是不停地试错探索的过程。探索和利用是强化学习中非常关心的问题,其中,探索指尝试一些新的动作,这些新的动作有可能会使我们得到更多的奖励,也有可能使我们一无所有。利用指采取已知的可以获得最多奖励的动作。重复执行这个动作,因为我们知道这样做可以获得一定的奖励。因此,我们需要在探索和利用之间做平衡,这也是监督学习中没有的情况。
强化学习的特征总结
1.强化学习会试错探索,它通过探索环境来获取对环境的理解。
2.强化学习智能体,会从环境中获得延迟的奖励。
3.在强化学习的训练过程中,时间非常重要,因为我们得到的是有时间关联的数据,而不是独立同分布的数据,在机器学习中,如果观测数据有非常强的关联,会使得训练非常不稳定。这也是为什么在监督学习中,我们希望数据尽量满足独立同分布,这样也就可以消除数据之间的相关性。
4.智能体的动作会影响到它随后得到的数据,这一点也非常关键。在训练智能体的过程中,很多时候我们也是通过正在学习的智能体与环境交互来得到数据的。所以如果训练过程中,智能体不能保持稳定, 就会使得我们采集到的数据非常糟糕。我们通过数据来训练智能体,如果数据有问题,整个训练过程就会失败。所以强化学习中的一个非常重要的问题是,怎么让智能体的动作一直稳定地提升。