自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 动手学深度学习 Task08:文本分类;数据增强;模型微调

【一】文本分类 文本情感分类数据 使用斯坦福的IMDb数据集(Stanford’s Large Movie Review Dataset)作为文本情感分类的数据集。 读取数据 数据集文件夹结构: | aclImdb_v1 | train | | pos | | | 0_9.txt | | | 1_7.txt | | | … | | neg | | | 0_3...

2020-02-24 20:58:46 284

原创 动手学深度学习 Task07 优化算法进阶;word2vec;词嵌入进阶

【一】优化算法进阶 Momentum Algorithm 动量法的提出是为了解决梯度下降的上述问题。设时间步ttt 的自变量为 xt\boldsymbol{x}_txt​,学习率为 ηt\eta_tηt​。 在时间步 t=0 ,动量法创建速度变量m0\boldsymbol{m}_0m0​ ,并将其元素初始化成 0。在时间步 t>0 ,动量法对每次迭代的步骤做如下修改:mt←βmt−1+...

2020-02-24 20:39:04 164

原创 动手学深度学习 Task06 批量归一化和残差网络;凸优化;梯度下降

【一】 批量归一化和残差网络 1.对全连接层做批量归一化 位置:全连接层中的仿射变换和激活函数之间。 全连接:x=Wu+boutput=ϕ(x)\boldsymbol{x} = \boldsymbol{W\boldsymbol{u} + \boldsymbol{b}} \\ output =\phi(\boldsymbol{x})x=Wu+boutput=ϕ(x)批量归一化:output=ϕ(B...

2020-02-24 20:09:23 163

原创 动手学深度学习 Task05 卷积神经网络基础;leNet;卷积神经网络进阶

【一】卷积神经网络基础 二维卷积层 二维卷积层将输入和卷积核做互相关运算,并加上一个标量偏置来得到输出。卷积层的模型参数包括卷积核和标量偏置。 class Conv2D(nn.Module): def __init__(self, kernel_size): super(Conv2D, self).__init__() self.weight = nn.Pa...

2020-02-19 20:42:32 223

原创 动手学深度学习 Task04 机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer

【一】机器翻译及相关技术 机器翻译(MT): 将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出的是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 数据预处理 将数据集清洗、转化为神经网络的输入minbatch。字符在计算机里是以编码的形式存在,我们通常所用的空格是 \x20 ,是在标准ASCII可见字符 0x20~...

2020-02-19 19:59:28 193

原创 动手学深度学习 Task03 过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶

【一】过拟合、欠拟合及其解决方案 过拟合 模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。 欠拟合 当模型无法得到较低的训练误差时,我们将这一现象称作欠拟合(underfitting)。 在实践中,我们要尽可能同时应对欠拟合和过拟合。虽然有很多因素可能导致这两种拟合问题,在这里重点讨论两个因素:模型复杂度和训练数据集大小。 解决方案 ...

2020-02-18 14:43:55 209

原创 动手学深度学习 Task02:文本预处理;语言模型;循环神经网络基础

【一】文本预处理 此次将讨论文本数据的常见预处理步骤,旨在将文本信息从人类语言转换为机器可读格式以便于后续处理。文本是一类序列数据,一篇文章可以看作是字符或单词的序列,预处理通常包括四个基本步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 读入文本 我们用一部英文小说,即H. G. Well的Time Machine,...

2020-02-14 19:56:44 246

原创 动手学深度学习 Task01:线性回归;Softmax与分类模型;多层感知机

【一】线性回归 用房价预测的例子来初步认识线性回归,学习线性回归的基本要素以及线性回归的两种实现 线性回归的基本要素 模型 为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系: price=warea⋅area+warea⋅age+bprice=w_{area}⋅area+...

2020-02-13 22:25:53 226

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除