强化学习 强化学习定义 策略优化与策略评估 在当前策略派的指挥下 状态s1可以采取向上运动和向右运动 向上运动的反馈期望小于向右运动的反馈期望 所以更新当前的策略 更新为在状态s1的时候 该状态应该向右获得更大的反馈期望 强化学习求解:Q Learning 深度强化学习