# [0624] Task03 深度学习基础

Gaogaogaoshu

于 2024-06-24 21:17:31 发布

阅读量909

点赞数 10

分类专栏： # 打卡文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46034116/article/details/139700969

版权

打卡专栏收录该内容

6 篇文章 0 订阅

订阅专栏

joyrl P6

参考链接：https://datawhalechina.github.io/joyrl-book/
——————
5、深度强化学习基础 ⭐️
开源内容：https://linklearner.com/learn/summary/11
——————————

高维度复杂问题

深度学习 + 强化学习

根据环境的状态和动作 预测状态值和动作值。
根据状态值和动作值 选择动作。

训练：基于大量样本对算法进行迭代更新

强化学习序列决策
深度学习打标签

线性问题： $f^\theta(\bm x)=\bm \theta^T\bm x$

拟合

动量法：考虑当前的梯度和之前的梯度。

加快梯度下降的速度，减少梯度下降过程中的震荡。

Adam：当前梯度和之前梯度的平方。

批量梯度下降
小批量梯度下降 √
随机梯度下降

线性回归均方差损失
逻辑回归交叉熵损失

全连接网络/多层感知机 (multi-layer perceptron，MLP)

神经网络近似动作值函数：
输入：状态
输出：动作值

连续动作，汽车方向盘转动角度， tanh 激活函数
输出为正， ReLU

基于线性模型的神经网络已经足够适用于大部分的强化学习问题。

卷积神经网络 CNN 网格结构 (图像、时间序列数据)
局部感受野、权重共享、池化层、归一化和 Dropout。

循环神经网络 RNN 序列数据
梯度消失、梯度爆炸
LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)

Transformer 序列数据。
自注意力。

逻辑回归：
$z=x^Tw+b$
${\rm sigmoid}(z)=\frac{1}{1+\exp(-z)}$

$l$ 层神经网络：
第 1 层： ${\bm x}^{(1)}=\sigma_1(\bm W^{(1)}{\bm x}^{(0)}+{\bm b}^{(1)})$
第 2 层： ${\bm x}^{(2)}=\sigma_2(\bm W^{(2)}{\bm x}^{(1)}+{\bm b}^{(2)})$
$\vdots$
第 $l$ 层： ${\bm x}^{(l)}=\sigma_l(\bm W^{(l)}{\bm x}^{(l-1)}+{\bm b}^{(l)})$

其中 $\sigma_i$ 为激活函数，一般有 sigmoid， softmax，ReLU，tanh 等
权重矩阵 $\bm W$ ，偏置矩阵 $\bm b$

关注

10
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
# [0624] Task03 深度学习基础

参考链接：https://datawhalechina.github.io/joyrl-book/开源内容：https://linklearner.com/learn/summary/11。LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)局部感受野、权重共享、池化层、归一化和 Dropout。连续动作，汽车方向盘转动角度， tanh 激活函数。Adam：当前梯度和之前梯度的平方。动量法：考虑当前的梯度和之前的梯度。线性回归均方差损失。逻辑回归交叉熵损失。
复制链接

扫一扫

专栏目录

博客等级

码龄5年

53
原创

425
点赞

653
收藏

277
粉丝

关注

私信

热门文章

分类专栏

rbtsff 18篇
强化学习 9篇
DeepRoot
打卡 6篇

最新评论

# [0705] Task06 DDPG 算法、PPO 算法、SAC 算法【理论 only】
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/619206080。
# [0701] Task05 策略梯度、Actor-critic 算法
泡芙萝莉酱: 博主在这篇关于策略梯度和Actor-critic算法的文章中，展现了对这个主题深刻的理解和独到的见解。文章中的细节描写非常到位，让读者能够更加深入地了解和学习这两种算法。博主的专业知识和深厚功底让我对这个领域有了全新的认识，真是受益匪浅。期待博主未来能够持续分享更多优质的文章，同时也希望能够得到博主的指导，共同进步。感谢博主的无私分享和支持！
# [0701] Task05 策略梯度、Actor-critic 算法
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619116502。
# [0628] Task04 DQN 算法及进阶
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619100912。
# [0619] Task01 绪论、马尔可夫过程、动态规划【OpenAI_Gym 库】
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619040443。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。