CS224W6.2——深度学习基础

最新推荐文章于 2024-07-01 21:22:25 发布

阿牛大牛中

最新推荐文章于 2024-07-01 21:22:25 发布

阅读量698

点赞数 1

分类专栏：图神经网络文章标签：深度学习人工智能神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46351593/article/details/134360671

版权

图神经网络专栏收录该内容

20 篇文章 0 订阅

订阅专栏

在本文中，我们回顾了深度学习的概念和技术，这些概念和技术对理解图神经网络至关重要。从将机器学习表述为优化问题开始，介绍了目标函数、梯度下降、非线性和反向传播的概念。

文章目录

1. 大纲
2. 优化问题
- 2.1 举例损失函数
3. 如何优化目标函数？
4. 梯度下降
- 4.1 对于SGD的一些概念
5. 如何获得目标函数？
6. 总结

1. 大纲

在这里插入图片描述

这篇我们主要讲第一部分深度学习的基础。

2. 优化问题

我们将机器学习问题、监督学习问题看作是优化问题：

在这里插入图片描述

我们需要学习这样一个映射函数：将输入 $x$ 映射为输出的预测标签 $y$ 。

将这样的函数学习表述为一个优化过程。

在这里插入图片描述

有两件重要的是：

通过优化参数 $\Theta$ ，最小化损失函数 $\mathcal{L}$ 。
损失函数用来测量真实值与预测值之间的差距。

2.1 举例损失函数

交叉熵损失函数：

在这里插入图片描述

讨论多分类问题：

比如5分类问题，表示5种颜色，我们用one-hot编码表示。

我们要在某种意义上对它进行建模，使用 $f (x)$ 这是将某个函数 $g (x)$ 经过 $S o f t ma x ()$ 函数，得到一个预测5分类的概率，这些概率之和为1。

现在要衡量这个预测的质量。

通过单点的交叉熵损失函数 $CE (y, f (x))$ 得到的值越小，就表示预测值与真实的one-hot值越接近。

然后将所有单点的损失相加就得到了总的损失： $\mathcal{L}=\sum_{(x,y)\in\mathcal{T}}\operatorname{CE}(y,f(x))$ ，这是所有训练样本的真实值与预测值之间的总差异。

而我们想要的就是找到一个合适的函数 $f (x)$ 去最小化真实值与预测值之间的总差异。

3. 如何优化目标函数？

在这里插入图片描述

经典的优化目标函数是通过梯度下降，所以梯度的概念很重要：

某个定点的梯度是一个方向，该方向是函数的最快增长速率。

现在，我们可以对损失函数进行“询问”，关于我的参数 $\Theta$ ，我应该朝着哪个方向？（梯度相反的方向）改变我的参数 $\Theta$ 使损失 $\mathcal{L}$ 减少最多。

4. 梯度下降

在这里插入图片描述

上面是最基础的梯度下降版本，重复更新模型参数，直至收敛。

最基础的梯度下降有一些问题，所以后续提出了随机梯度下降（SGD）：

在这里插入图片描述

传统的梯度下降每一轮迭代都需要计算所有点的梯度，计算量太大，而SGD只计算一部分。

4.1 对于SGD的一些概念

在这里插入图片描述

首先是batch_size的概念，它是我们评估梯度数据的子集，（不是在整个训练数据集上评估梯度——GD，而是在训练集的一小部分——SGD），batch_size的大小是每一批次数据点的数量，通常我们喜欢更大的batch_size，但更大的batch_size会使优化变慢。
其次是iteration的概念，SGD的一个迭代（iteration），是SGD的一个步骤，我们在给定的batch_size的数据点上评估梯度。迭代次数是：数据集大小/batch_size。
最后是epoch的概念，它是对数据集的全面遍历。

这种小批量训练的思想是深度学习的核心。

5. 如何获得目标函数？

对于简单的模型：

在这里插入图片描述

5.1 反向传播

在这里插入图片描述

反向传播的概念：使用链式法则，来传播中间步骤的梯度，最终获得关于模型参数损失的梯度。

举例：

在这里插入图片描述

在这里插入图片描述

5.2 非线性变换

目前为止只使用了简单的两层神经网络，而 $W_2W_1$ 可以表示为另一个矩阵，它依然可以表示为一层的线性变换。

在这里插入图片描述

这意味着，我们通过两侧的线性变换依然得到的是一个线性模型，没有获得更多的表达能力。

而如果我们引入非线性变换，实际上增加了模型的表示能力。这将我们引向多层感知机的概念（MLP）。

5.3 MLP

在这里插入图片描述

6. 总结

在这里插入图片描述

阿牛大牛中

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS224W6.2——深度学习基础

在本文中，我们回顾了深度学习的概念和技术，这些概念和技术对理解图神经网络至关重要。从将机器学习表述为优化问题开始，介绍了目标函数、梯度下降、非线性和反向传播的概念。这篇我们主要讲第一部分深度学习的基础。我们将机器学习问题、监督学习问题看作是优化问题：我们需要学习这样一个映射函数：将输入xxx映射为输出的预测标签yyy。将这样的函数学习表述为一个优化过程。有两件重要的是：交叉熵损失函数：讨论多分类问题：比如5分类问题，表示5种颜色，我们用one-hot编码表示。我们要在某种意义上对它进行建模，使用f(x)f(
复制链接

扫一扫

专栏目录

阿牛大牛中 CSDN认证博客专家 CSDN认证企业博客

码龄4年

260: 原创

2万+: 周排名

12万+: 总排名

30万+: 访问

: 等级

3618: 积分

1031: 粉丝

546: 获赞

155: 评论

2038: 收藏

私信

关注

热门文章

分类专栏

图神经网络 20篇
推荐系统 18篇
知识图谱 5篇
计算机网络 15篇
考研 16篇
uni-app 4篇
Linux 4篇
Django 1篇
Python 35篇
react 11篇
JavaScirpt 35篇
vue 25篇
TypeScript 1篇
操作系统
小程序 18篇
nodejs 8篇
git
Angular 2篇
MongoDB 4篇
web移动端 2篇
jQuery 5篇
css 16篇
html 16篇

最新评论

基于知识图谱的电影推荐系统——Neo4j&Python
等一下就回家526: 请问知识图谱的构建过程是怎样的啊？三元组分别对应？谢谢
考研复试——概率论
阿牛大牛中: 过了，签了保密协议，这个肯定不能说哦
考研复试——概率论
Eric_Aatrox: 很好奇楼主后来过复试了吗复试问的问题是啥呀
js绘图
Abro.: thanks!
推荐常用的排序学习算法——BPR（贝叶斯个性化排序）
昊昊66: 请问对于第一部分，由于我们假设每个用户之间的偏好行为相互独立，同一用户对不同物品的偏序相互独立，所以有：根据上面讲到的完整性和反对称性，优化目标的第一部分可以简化为这两块怎么来的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。