有/无模型方法,即状态转移概率知道/未知。 在策(on-policy):是指产生数据的策略与评估和要改善的策略是同⼀个策略。 离策(off-policy):是指产生数据的策略与评估和改善的策略不是同⼀个策略。