强化学习的基本框架
一个强化学习系统由以下几个部分组成:
一个policy策略函数,一个reward激励函数,一个value价值函数、一个environment环境模型(非必须)
策略函数
策略函数的作用是把环境状态映射到一个最优行为。其输入是观察到的环境状态,输出是应该采取的最优行动。策略函数里面可能是一些行为规则,或者是通过查表来给出输出,或者可以是一个神经网络。另外,策略网络的输出可以包含一些随机的因素,其输出不一定必须是确定的。
激励函数