# [0624] Task03 深度学习基础

  • joyrl P6

参考链接 :https://datawhalechina.github.io/joyrl-book/
——————
5、深度强化学习基础 ⭐️
开源内容:https://linklearner.com/learn/summary/11
——————————

高维度 复杂问题

深度学习 + 强化学习

根据环境的状态和动作 预测 状态值 和 动作值
根据 状态值 和 动作值 选择 动作

训练:基于 大量样本 对算法进行迭代更新

强化学习 序列决策
深度学习 打标签

线性问题: f θ ( x ) = θ T x f^\theta(\bm x)=\bm \theta^T\bm x fθ(x)=θTx

拟合

动量法: 考虑当前的梯度 和 之前的梯度。

  • 加快梯度下降的速度,减少梯度下降过程中的震荡。

Adam: 当前梯度 和 之前梯度的平方。

批量梯度下降
小批量梯度下降 √
随机梯度下降

线性回归 均方差损失
逻辑回归 交叉熵损失

全连接网络/多层感知机 (multi-layer perceptron,MLP)

神经网络 近似 动作值函数:
输入: 状态
输出: 动作值

连续动作, 汽车方向盘转动角度, tanh 激活函数
输出为 正, ReLU

基于线性模型的神经网络已经足够适用于大部分的强化学习问题。

卷积神经网络 CNN 网格结构 (图像、时间序列数据)
局部感受野、权重共享、池化层、归一化和 Dropout。

循环神经网络 RNN 序列数据
梯度消失、梯度爆炸
LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)

Transformer 序列数据。
自注意力。

逻辑回归
z = x T w + b z=x^Tw+b z=xTw+b
s i g m o i d ( z ) = 1 1 + exp ⁡ ( − z ) {\rm sigmoid}(z)=\frac{1}{1+\exp(-z)} sigmoid(z)=1+exp(z)1
  ~  
l l l 层神经网络:
第 1 层: x ( 1 ) = σ 1 ( W ( 1 ) x ( 0 ) + b ( 1 ) ) {\bm x}^{(1)}=\sigma_1(\bm W^{(1)}{\bm x}^{(0)}+{\bm b}^{(1)}) x(1)=σ1(W(1)x(0)+b(1))
第 2 层: x ( 2 ) = σ 2 ( W ( 2 ) x ( 1 ) + b ( 2 ) ) {\bm x}^{(2)}=\sigma_2(\bm W^{(2)}{\bm x}^{(1)}+{\bm b}^{(2)}) x(2)=σ2(W(2)x(1)+b(2))
⋮ \vdots
l l l 层: x ( l ) = σ l ( W ( l ) x ( l − 1 ) + b ( l ) ) {\bm x}^{(l)}=\sigma_l(\bm W^{(l)}{\bm x}^{(l-1)}+{\bm b}^{(l)}) x(l)=σl(W(l)x(l1)+b(l))

  • 其中 σ i \sigma_i σi 为 激活函数, 一般有 sigmoid, softmax,ReLU,tanh 等
  • 权重矩阵 W \bm W W, 偏置矩阵 b \bm b b
  • 10
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值