强化学习
依据最终奖励决定行动策略的学习过程,可视为延迟标记信息的监督学习问题。
一、强化学习模型
1、马尔科夫决策过程MDP:强化学习常用MDP进行描述,其任务对应四元组E=<X, A, P, R>,环境E,状态空间X,动作A,状态转移概率P,奖励函数R。下图为西瓜浇水的MDP。
2、强化学习目标:在环境中不断尝试以学习一个策略,即在某种状态下应当采取的动作,其优劣评价应该由长期执行后的累积奖赏作为标准。如某策略种出好瓜,累积奖赏很大,反之若枯死,则奖赏很小。累积奖赏计算方式可用T步累积奖赏和γ折扣累计奖赏计算。
二、单步强化学习——K-老虎机
考虑一步操作能获得的最大奖赏(累积奖励退化为单步奖励),即单步强化学习,其理论模型为K-老虎机。即投币后摇动摇杆以一定概率吐出硬币,但是不知道各个摇杆吐币的概率,要求在尝试中最大化受益。
1、探索与利用:两种基本策略为“仅探索”、“仅利用”。仅探索指的是平均分配机会,获取各个摇杆近似吐币概率(或说总是以平均概率选择摇杆),仅利用指的是按下目前最优摇臂,两者通常都不能使得累积奖赏最大化。
2、ε-贪:折中探索与利用的策略,每次尝试以ε的概率探索,以1-ε的概率利用。该策略不确定性较大,若概率分布较宽,则ε值需较大,否则较小即可。此外长时间探索能将奖赏很好近似,基本不需要探索,可令ε随时间减小。
3、Softmax:基于当前已知摇臂平均奖励对探索和利用进行折中。选中摇臂的概率由下述公式决定,其中超参为τ,称为“温度”,其趋于0时趋于“仅探索”,趋于无穷时趋于“仅利用”。
三、多步强化学习
包括模型E=<X, A, P, R>已知或未知的情形,此时累积奖赏是指执行策略后未来若干步的奖赏。此时认为状态空间和动作均有限。
1、有模型学习:
模型已知,根据MDP的马尔科夫性质可以推出状态值函数(即累积奖励函数,仅与初始状态和策略有关)、状态-动作值函数(从某状态出发使用某动作后再采用策略带来的累积奖励)的递归关系(以T步累积为例)。由此可以评估一个给定策略,下为伪代码。
评估后的模型若不为最优,则应该改进。评估与改进形成迭代,下为策略迭代算法。此外还有值迭代算法。
2、免模型学习:
学习算法不依赖于环境建模。首先面临模型无法评估,代替方法为多次采样,求取平均累积奖励作为期望累积奖励近似,在评估的基础上改进该策略,此即蒙特卡洛强化学习。时序差分学习结合动态规划和蒙特卡洛方法的思想,能做到更高效免模型学习。
四、值函数近似
先前假定强化学习为有限状态空间上进行,值函数亦有限,此节讨论如何获取连续状态空间的值函数。实际上,可以直接对值函数进行学习,如假设值函数为线性的,可获得Sarsa算法。
五、模仿学习
若给定决策范例,先验地知道什么是较好的决策,再向该策略学习,称为“模仿学习”。
1、直接模仿学习:直接模仿范例的“状态-动作”称为直接模仿学习。
2、逆强化学习:思想是设计奖赏函数较困难,可以利用范例反推出奖赏函数,再利用该奖赏函数训练强化学习。