文章目录 智能体-环境 交互接口目标和收益3、分幂 和持续性任务的统一表示4、 侧拉和价值韩素 智能体-环境 交互接口 状态转移概率 状态动作 二元组的期望收益 时间不长 目标和收益 3、分幂 和持续性任务的统一表示 4、 侧拉和价值韩素