一、强化学习基础认知
1、强化学习三要素
1、actor (即policy gradient要学习的对象, 是我们可以控制的部分)
2、环境 environment (给定的,无法控制)
3、回报函数 reward function (无法控制)
2、名词介绍
Policy of actor π \omicron(决策):
如下图(本文图片均来自于李宏毅的强化学习课件,其视频内容可点击此处查看)所示,Policy 可以理解为一个包含参数 θ的神经网络,该网络将观察到的变量作为模型的输入,基于概率输出对应的行动action。
Episode:
游戏从开始到结束的一个完整的回合。
Trajectory τ \tau