汪勤思-CSDN博客

转载优化算法进阶

目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此，梯度下降也叫作最陡下降（steepest descent）。在每次迭代中，梯度下降根据自变量当前位置，沿着当前位置的梯度更新自变量。然而，如果自变量的迭代方向仅仅取决于自变量当前位置，这可能会带来一些问题。对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收敛的结果。gt...

2020-02-25 21:57:42 121

转载语言模型与数据集

语言模型一段自然语言文本可以看作是一个离散时间序列，给定一个长度为T的词的序列w1,w2,…,wT，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：P(w1,w2,…,wT).本节我们介绍基于统计的语言模型，主要是n元语法（n-gram）。在后续内容中，我们将会介绍基于神经网络的语言模型。语言模型假设序列w1,w2,…,wT中的每个词是依次生成的，我们有P(w1,w2,…,w...

2020-02-25 21:54:20 148

转载批量归一化（BatchNormalization）

批量归一化（BatchNormalization）对输入的标准化（浅层模型）处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相近批量归一化（深度模型）利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。1.对全连接层做批量归一化位置：全连接层中的仿射变换和激活函数之间。全连接：x=...

2020-02-25 21:51:51 512

转载语言模型

一段自然语言文本可以看作是一个离散时间序列，给定一个长度为 TT 的词的序列 w1,w2,…,wTw1,w2,…,wT ，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：P(w1,w2,…,wT).P(w1,w2,…,wT).本节我们介绍基于统计的语言模型，主要是 nn 元语法（ nn -gram）。在后续内容中，我们将会介绍基于神经网络的语言模型。语言模型假设序列 w1,w2...

2020-02-19 21:45:39 251

转载批量归一化（BatchNormalization）

批量归一化（BatchNormalization）对输入的标准化（浅层模型）处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相近批量归一化（深度模型）利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。1.对全连接层做批量归一化位置：全连接层中的仿射变换和激活函数之间。全连接：[M...

2020-02-19 21:42:39 652

转载模型选择、过拟合和欠拟合

模型选择、过拟合和欠拟合训练误差和泛化误差在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和so...

2020-02-19 21:14:29 132

转载多层感知机

多层感知机的基本知识深度学习主要关注多层模型。在这里，我们将以多层感知机（multilayer perceptron，MLP）为例，介绍多层神经网络的概念。隐藏层下图展示了一个多层感知机的神经网络图，它含有一个隐藏层，该层中有5个隐藏单元。表达公式具体来说，给定一个小批量样本X∈Rn×d\boldsymbol{X} \in \mathbb{R}^{n \times d}X∈Rn×d，其批...

2020-02-13 21:25:48 452

转载 softmax的基本概念

softmax的基本概念分类问题一个简单的图像分类问题，输入图像的高和宽均为2像素，色彩为灰度。图像中的4像素分别记为x1,x2,x3,x4x_1, x_2, x_3, x_4x1,x2,x3,x4。假设真实标签为狗、猫或者鸡，这些标签对应的离散值为y1,y2,y3y_1, y_2, y_3y1,y2,y3。我们通常使用离散的数值来表示类别，例如y1=1,y2=2,y3=3...

2020-02-13 21:14:58 318

转载线性回归的基本要素

线性回归的基本要素模型为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:price=warea⋅area+wage⋅age+b \mathrm{price} = w_{\mathrm{area}} \cdot \mathrm{area} + w_{\mathrm{ag...

2020-02-13 21:06:54 481

wqshyk的博客

转载优化算法进阶

转载语言模型与数据集

转载批量归一化（BatchNormalization）

转载语言模型

转载批量归一化（BatchNormalization）

转载模型选择、过拟合和欠拟合

转载多层感知机

转载 softmax的基本概念

转载线性回归的基本要素

空空如也

空空如也