各种function的理解
看图
1.当我看到环境S,怎么样采取动作Action称为策略function π 函数 π(a∣s)
2.当我在S环境下采取了A动作,则获得了回报R。当有很多个不同的S采取A后获得R这个过程,记录成表格。称为Q-table。
3.未来的收益之和 Gt = Rt+1 + μRt+2 ···· = Rt+1 + μGt+1 (注意这里不含Rt,是未来的收益)
4.价值函数是未来奖励的一个预测
Eπ是期望,在已知某个策略的情况下,可以得到奖励的总和。
5.Q函数也是一种价值函数
未来可以获得多少的奖励,它的这个期望取决于你当前的状态和当前的行为。