2022年学习的强化学习1---相关名词

 1.static(状态)action(动作是谁做的谁就是action)

 2.”%策略函数pi(policy)%“:(概率密度)(随机数)

 3.reward(奖励)

4.”%状态转移函数p%“state transition(状态转移,可设置,可随机(根据代码))

 翻译:在状态是s,动作为a时,状态s变成s'的概率为p;

 翻译:(environment)代码给予agent一个状态(state),agent做出一个action去更新environment,从而产生一个reward。

5.随机的来源:

一,动作的不确定性;二,状态转移的不确定性

6.trajectory(轨迹)

7.折扣回报(discount return)(γ=0~1的折扣率)

Ut=各个时间的return相加,又由于存在随机性(由action和state决定)所以return受action和state的影响。 

 8."%动作价值函数(Q pi/QΠ)%"和"%状态价值函数(V pi/V Π)%" :判断在action和state下的好坏;在state下的赢面

①动作价值函数Qpi=回报的期望;

 ② 状态价值函数Vpi与动作价值函数Qpi的期望;

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值