1.static(状态)action(动作是谁做的谁就是action)
2.”%策略函数pi(policy)%“:(概率密度)(随机数)
3.reward(奖励)
4.”%状态转移函数p%“state transition(状态转移,可设置,可随机(根据代码))
翻译:在状态是s,动作为a时,状态s变成s'的概率为p;
翻译:(environment)代码给予agent一个状态(state),agent做出一个action去更新environment,从而产生一个reward。
5.随机的来源:
一,动作的不确定性;二,状态转移的不确定性
6.trajectory(轨迹)
7.折扣回报(discount return)(γ=0~1的折扣率)
Ut=各个时间的return相加,又由于存在随机性(由action和state决定)所以return受action和state的影响。
8."%动作价值函数(Q pi/QΠ)%"和"%状态价值函数(V pi/V Π)%" :判断在action和state下的好坏;在state下的赢面
①动作价值函数Qpi=回报的期望;
② 状态价值函数Vpi与动作价值函数Qpi的期望;