
第七章:策略梯度方法
E(y∣x)=∫yf(y∣x)dy=∫y∗f(y,x)f(x)dyE(y|x)=\int yf(y|x)dy=\int y*\frac{f(y,x)}{f(x)}dyE(y∣x)=∫yf(y∣x)dy=∫y∗f(x)f(y,x)dy神经网络π(a∣s;θ)\pi(a|s;\theta)π(a∣s;θ)近似π(a∣s)\pi(a|s)π(a∣s)输入是状态,输出是每个动作的概率动作价值函数的定义,前t个动作和状态已知,但t+1之后的是未知量:状态价值函数的定义:状态价值函数依赖于当前的状态和策略


















