【学习笔记】强化学习1——强化学习概述

强化学习概述

机器学习主要分为监督学习、非监督学习、强化学习。强化学习的训练样本没有标记,根据训练样本学习迭代获得最优策略,强化学习需要与环境不断地交互学习。

强化学习的基本原理是智能体从环境中接收一个状态s,通过动作a与环境进行交互,产生下一状态s'并获得一个回报。智能体与环境不断的交互,产生更多的数据(状态和回报),并利用新的数据进一步改善自身的行为。

强化学习以求解每个状态下的最优策略为目标。

智能体的组成

策略

\pi (a | s) 表示在某状态下,执行某行为的概率。

随机性策略:根据状态输出每个可能动作的概率(分布)。

确定性策略:输出一个动作。

值函数

值函数的估计根据给定策略进行。

回报:从t时刻开始所有衰减的汇报总和。

状态值函数:从状态s开始,遵循策略\pi 所获得的期望回报。

行为值函数:从状态s开始,遵循策略\pi执行动作a 所获得的期望回报。

 模型

智能体对环境的一个建模。给定一个状态和行为,能够预测下一个状态和获得的回报。

研究方法

第一步:构建数学模型——马尔科夫决策模型

第二步:求解马尔可夫决策模型的最优解

重要概念

学习与规划

学习:智能体对环境模型未知,通过与环境的交互不断学习,采用试错法逐步改善策略。

规划:智能体对环境已知,根据已知的环境规划策略。

探索与利用

探索:智能体在某个状态下去尝试新的动作,以获得更多的环境信息。

利用:智能体根据已知信息,选取最优行为获得最大回报。

预测与控制

预测:在给定策略下获得状态值函数。

控制:寻找最优策略。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值