强化学习(1)— 基本概念

强化学习(1)— 基本概念
在这里插入图片描述
在这里插入图片描述

.1.1 状态、动作、奖励
状态:对当前环境的概括
状态空间:所有可能存在的状态集合
动作:智能体基于当前状态做的决策
动作空间:所有可能存在的动作集合
奖励:智能体执行完一个动作后,环境返回的一个数值

1.1.2 状态转移
状态转移:智能体从t时刻s状态转移到t+1时刻的状态s’的过程
通常强化学习假设状态转移是随机的,用状态转移函数表示:
pt (s’ | s, a) = P (S’t+1= s’ | St=s, At=a)
通常假设状态转移函数是平稳的,即函数不会随着时刻t变化

1.2 策略
策略:如何根据观测到的状态做出决策,即如何从动作空间选取动作,强化学习的目标即是学习策略函数
随机性策略:随机性策略π:S×A→[0, 1]是一个概率密度函数 π(a|s) = P (A= a | S=s),输入是S和A,输出是0~1之间的数值

1.3 随机性
随机性的来源有两个:动作和状态,动作的随机性来源于策略,状态的随机性来源于状态转移
动作:给定状态s、动作是根据policy函数随机抽样得到的,记为π(a|s)
状态:给定状态s、动作a,环境根据状态转移函数会随机产生新的状态s’ ,记为p(s’|s,a)
奖励是动作和状态的函数,记作rt=r(st , at)

1.4 回报和折扣回报
回报:从当前状态开始到状态本回合结束所有奖励的总和,也叫累计奖励
Ut = Rt+Rt+1+Rt+2+…+Rn
强化学习的目标是寻找一个策略,使得回报的期望最大化,这个策略称为最优策略

折扣回报:对未来的奖励打折,γ∈[0, 1]
Ut = Rt+γRt+1+γ2Rt+2+…+γn-1Rn

假设在t时刻只观测到st及其之前的状态、动作和奖励:
s1, a1, t1, s2, a2, t2 ,…, st-1, at-1, rt-1, st
剩余状态At, Rt, St+1,…, Sn, An, Rn(随机变量,尚未被观测到), Ut依赖于Rt , …, Rn,Ut属于随机变量

1.5 价值函数
价值函数:回报的期望
动作价值函数:Qπ(st , at ) = ESt+1, At+1,…, Sn, An [Ut | St=st , At=at ],观测到st,且做完了决策、选择了动作at
Qπ(st, at)依赖当前状态st、当前动作at和策略函数π,是回报的期望

最优动作价值函数:Q*(st ,at ) = maxπ Qπ(st , at ),∀ st∈S, at∈A
有多种策略可供选择,选择其中最好的策略函数:
π*=argmaxπ Qπ(st, at ), ∀ st∈S, at∈A

状态价值函数:Vπ(st )=EAt~π(• |st) [Qπ(st , At )] = ∑a∈Aπ(a|st ) • Qπ(st , a)
用来判断策略π和状态st的好坏,也是回报的期望:Vπ(st ) = EAt , St+1, At+1,…, Sn , An [Ut | St = st ]

  • 9
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
深度学习是一种机器学***神经网络的结构和功能,通过多层次的神经网络进行学习和推理。深度学习的核心思想是通过大量的数据和强大的计算能力,自动地从数据中学习特征表示,并利用这些特征进行模式识别和决策。 深度学习的发展历程可以追溯到上世纪80年代,但直到近年来才取得了显著的突破。以下是深度学习的发展历程的主要里程碑: 1. 多层感知机(MLP):上世纪80年代,多层感知机被提出作为一种基本的神经网络结构,但由于计算资源和数据量的限制,其应用受到了限制。 2. 反向传播算法:上世纪80年代末,反向传播算法被提出,它解决了训练多层神经网络的难题,为深度学习的发展奠定了基础。 3. 深度信念网络(DBN):2006年,Hinton等人提出了深度信念网络,通过逐层贪婪地训练网络,解决了深度神经网络训练的问题。 4. 卷积神经网络(CNN):2012年,Krizhevsky等人在ImageNet图像识别竞赛中使用卷积神经网络取得了突破性的成果,引起了广泛的关注和应用。 5. 递归神经网络(RNN):RNN是一种具有循环连接的神经网络,能够处理序列数据,如语音和自然语言。它在机器翻译、语音识别等领域取得了重要的进展。 6. 深度强化学习:深度强化学习结合了深度学习强化学习的思想,通过智能体与环境的交互来学习最优策略,在游戏、机器人控制等领域取得了显著的成果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值