《动手学深度学习》第一次打卡

最新推荐文章于 2024-07-25 21:26:56 发布

yuwenhenhao

最新推荐文章于 2024-07-25 21:26:56 发布

阅读量257

点赞数

分类专栏：《动手学深度学习》笔记文章标签： pytorch 深度学习神经网络

本文链接：https://blog.csdn.net/yuwenhenhao/article/details/104297555

版权

《动手学深度学习》笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、线性回归

其实正在看《动手学深度学习》，不过一来自己一个人有的时候想偷懒，看的慢，二来这次组队能认识到人，一起做题，更有动力。便趁着这次伯禹教育在这次疫情中免费开的这堂课，一起组队学习。
这是第一次课程的笔记。

主要内容：
1. 线性回归的基本要素。
2. 线性回归模型的从零开始实现
3. 线性回归模型使用pytorch的简介实现

线性回归的基本要素

这一节主要使基本介绍，对其进行简单带过。
为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:
在这里插入图片描述
损失函数
在模型训练中，我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差，且数值越小表示误差越小。一个常用的选择是平方函数。它在评估索引为 i 的样本误差的表达式为
在这里插入图片描述

二、softmax和分类模型

内容包含：
1、softmax回归的基本概念
2、如何获取Fashion-MNIST数据集和读取数据
3、softmax回归模型的从零开始实现，实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型
4、使用pytorch重新实现softmax回归模型

softmax函数主要用于分类问题中
由于直接使用输出层的输出有两个问题：
一方面，由于输出层的输出值的范围不确定，我们难以直观上判断这些值的意义。例如，刚才举的例子中的输出值10表示“很置信”图像类别为猫，因为该输出值是其他两类的输出值的100倍。但如果 o1=o3=103 ，那么输出值10却又表示图像类别为猫的概率很低。
另一方面，由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。
softmax运算符（softmax operator）解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布：
在这里插入图片描述

交叉熵（cross entropy）作为它的损失函数

三、多层感知机

内容包括：
1、多层感知机的基本知识
2、使用多层感知机图像分类的从零开始的实现
3、使用pytorch的简洁实现

1、多层感知机（multilayer perceptron，MLP）

多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络，且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。以单隐藏层为例并沿用本节之前定义的符号，多层感知机按以下方式计算输出：
在这里插入图片描述

2、激活函数

对隐藏变量使用按元素运算的非线性函数进行变换，然后再作为下一个全连接层的输入。这个非线性函数被称为激活函数（activation function）。
在这里插入图片描述

关于激活函数的选择
ReLu函数是一个通用的激活函数，目前在大多数情况下使用。但是，ReLU函数只能在隐藏层中使用。
用于分类器时，sigmoid函数及其组合通常效果更好。由于梯度消失问题，有时要避免使用sigmoid和tanh函数。
在神经网络层数较多的时候，最好使用ReLu函数，ReLu函数比较简单计算量少，而sigmoid和tanh函数计算量大很多。
在选择激活函数的时候可以先选用ReLu函数如果效果不理想可以尝试其他激活函数。

四、文本预处理

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：

读入文本
分词
建立字典，将每个词映射到一个唯一的索引（index）
将文本从词的序列转换为索引的序列，方便输入模型

用现有工具进行分词

我们前面介绍的分词方式非常简单，它至少有以下几个缺点:

标点符号通常可以提供语义信息，但是我们的方法直接将其丢弃了
类似“shouldn’t", "doesn’t"这样的词会被错误地处理
类似"Mr.", "Dr."这样的词会被错误地处理

我们可以通过引入更复杂的规则来解决这些问题，但是事实上，有一些现有的工具可以很好地进行分词，我们在这里简单介绍其中的两个：spaCy和NLTK。

五、语言模型

本节我们介绍基于统计的语言模型，主要是n元语法（n-gram）。在后续内容中，我们将会介绍基于神经网络的语言模型。

1、语言模型

假设序列w1,w2,w3…wt中的每个词是依次生成的，我们有
在这里插入图片描述

2、n元语法

序列长度增加，计算和存储多个词共同出现的概率的复杂度会呈指数级增加。n元语法通过马尔可夫假设简化模型，马尔科夫假设是指一个词的出现只与前面个词相关，即n阶马尔可夫链（Markov chain of order ），如果n=1，那么有p(w3|w1,w2)=p(w3|w2)。基于n-1阶马尔可夫链，我们可以将语言模型改写为
在这里插入图片描述

六、循环神经网络

本节介绍循环神经网络，下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。在这里插入图片描述

1、循环神经网络的构造

在这里插入图片描述

2、one-hot向量

我们需要将字符表示成向量，这里采用one-hot向量。假设词典大小是N，每次字符对应一个从0到N-1的唯一的索引，则该字符的向量是一个长度为N的向量，若字符的索引是i，则该向量的第i个位置为1，其他位置为0。

3、裁剪梯度

循环神经网络中较容易出现梯度衰减或梯度爆炸，这会导致网络几乎无法训练。裁剪梯度（clip gradient）是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量g ，并设裁剪的阈值是theta。裁剪后的梯度在这里插入图片描述

4、困惑度

我们通常使用困惑度（perplexity）来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地，

最佳情况下，模型总是把标签类别的概率预测为1，此时困惑度为1；
最坏情况下，模型总是把标签类别的概率预测为0，此时困惑度为正无穷；
基线情况下，模型总是预测所有类别的概率都相同，此时困惑度为类别个数。
显然，任何一个有效模型的困惑度必须小于类别个数。在本例中，困惑度必须小于词典大小vocab_size。

定义模型训练函数
跟之前章节的模型训练函数相比，这里的模型训练函数有以下几点不同：

使用困惑度评价模型。
在迭代模型参数前裁剪梯度。
对时序数据采用不同采样方法将导致隐藏状态初始化的不同。

yuwenhenhao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《动手学深度学习》第一次打卡

线性回归其实正在看《动手学深度学习》，不过一来自己一个人有的时候想偷懒，看的慢，二来这次组队能认识到人，一起做题，更有动力。便趁着这次伯禹教育在这次疫情中免费开的这堂课，一起组队学习。这是第一次课程的笔记。主要内容：1. 线性回归的基本要素。2. 线性回归模型的从零开始实现3. 线性回归模型使用pytorch的简介实现线性回归的基本要素这一节主要使基本介绍，对其进行简单带过。...
复制链接

扫一扫