一、RL是什么
当人类也不知道正确答案是什么的时候,适合用RL,机器知道哪一步是合适的。
二、RL的框架
1、第一步:Function with unknown
以空间入侵游戏为例:
输入的是游戏画面,输出是不同行为的概率(相同的输入可能有不同的输出,输出具有随机性)
2、第二步:定义损失函数
看到一个游戏画面会产生行为然后会产生游戏的reward,再接下去另一个游戏画面输出行为,一直持续到游戏结束,将所有的reward相加,并且最大化reward,RL的损失函数为负的Total reward。
3、第三步:Optimization
- 环境和actor都具有随机性
三、Policy gradient
(1)如何控制你的actor
- 对于一个具体的观察如果要有一个固定的行为,就使损失函数越小越好
- 如果是不要采取一个行为,就使损失函数越大越好
即:
a、收集训练资