前言
Softmax回归(Softmax Regression),也称为多类逻辑回归(Multinomial Logistic Regression),是一种用于多分类问题的分类算法。
虽然名字里面带回归,实际上是分类。接下来看一下分类与回归的区别。
区别 | 回归问题 | 分类问题 |
---|---|---|
问题类型 | 预测数值输出 | 预测样本所属的类别 |
输入特征 | 用于解释或预测输出结果的特征 | 用于描述输入数据的属性或特征 |
目标 | 寻找最佳拟合曲线或超平面以减少预测误差 | 最大化正确分类的准确性 |
输出变量类型 | 连续的数值 | 有限的离散标签,表示不同的类别 |
输出预测 | 给出实际数值预测结果 | 将样本分类为特定类别 |
常见应用 | 房价预测、销量预测、股票价格预测等 | 图像分类、垃圾邮件过滤、疾病诊断等 |
本质是把全连接层的输出序列变成一个概率序列。
原理
类别表示
由于类别可能不是数字,而是一些字符串,那么怎么来表示类别呢?接下来就需要用到one-hot 编码(one-hot encoding)了。
one-hot编码(one-hot encoding)是将每个类别用一个只含有 0 和 1 的向量来表示,向量的长度等于类别的总数。
假设有 (K) 个类别,那么对于第 (i) 个类别,其独热编码表示为一个长度为 (K) 的向量,其中只有第 (i) 个位置为 1,其他位置都为 0。
举个例子,假设每次输⼊是⼀个2 × 2的灰度图像。我们可以⽤⼀个标量表⽰每个像素值,
每个图像对应四个特征x1, x2, x3, x4。此外,假设每个图像属于类别“猫”“鸡”和“狗”中的⼀个。
那么标签 y就是一个长度为3的向量,其中(1,0,0)对应 “猫”、(0,1,0)对应 “鸡”,(0,0,1)对应 “狗”。这样应该可以理解了吧。
网络架构
既然标签 $ \mathbf{y} $ 是一个长度为 类别总数 的向量,那么为了估计样本可能对应的类别,就需要多输出的模型,每一个类别对应一个输出。此时就需要仿射函数,每一个输出对应自己的仿射函数。
继续咱们上面的例子,由于有4个特征、3个类别,所以需要12个标量来表示权重,3个标量来表示偏置,接下来为每个输入计算这3个类别的未规范化预测 :
o
1
、
o
2
、
o
3
o_1、o_2、o_3
o1、o2、o3
o
1
=
x
1
w
11
+
x
2
w
12
+
x
3
w
13
+
x
4
w
14
+
b
1
o
2
=
x
1
w
21
+
x
2
w
22
+
x
3
w
23
+
x
4
w
24
+
b
2
o
3
=
x
1
w
31
+
x
2
w
32
+
x
3
w
33
+
x
4
w
34
+
b
3
\begin{align} o_1 &= x_1 w_{11}+x_2 w_{12}+x_3 w_{13}+x_4 w_{14}+b_1\\ o_2 &= x_1 w_{21}+x_2 w_{22}+x_3 w_{23}+x_4 w_{24}+b_2\\ o_3 &= x_1 w_{31}+x_2 w_{32}+x_3 w_{33}+x_4 w_{34}+b_3 \end{align}
o1o2o3=x1w11+x2w12+x3w13+x4w14+b1=x1w21+x2w22+x3w23+x4w24+b2=x1w31+x2w32+x3w33+x4w34+b3
用神经图描述为:
上面的公式太过于繁琐,可以用向量形式表示。
将所有权重放到矩阵
W
∈
R
3
×
4
\mathbf{W} \in \mathbb{R}^{3 \times 4}
W∈R3×4 ,将特征放到向量
x
∈
R
1
×
4
\mathbf{x} \in \mathbb{R}^{1 \times 4}
x∈R1×4 ,将偏置放到向量
b
\mathbf{b}
b ,那么输出可以这样表示
o
=
W
X
+
b
\mathbf{o}=\mathbf{W} \mathbf{X}+\mathbf{b}
o=WX+b
Softmax运算
前面咱们已经根据输入得到输出 $ \mathbf{o} $,那么我们是否可以直接把这个结果当成概率输出呢?
实际上是不能的。第一个:我们没有限制输出结果的总和为1。第二个:某些输出结果可能为负值。
那么我们应该想办法把原始输出转化为概率分布后再输出。这时候Softmax就是不错的选择了。
Softmax运算可以保持向量中每个元素的相对大小,并将其转换为总和为1的概率分布。
大致步骤如下
- 对 o \mathbf{o} o 中的每一个元素应用指数化操作,得到一个新向量 e \mathbf{e} e
- 计算指数化得分的总和 sum_e
- 对于每个类别的指数化得分 除以 sum_e。
这样就得到了概率分布的向量。
公式为
y
^
=
s
o
f
t
m
a
x
(
o
)
\hat{\mathbf{y}}=softmax(\mathbf{o})
y^=softmax(o)
对于向量
y
^
\hat{\mathbf{y}}
y^ 里面的每一个元素都为
y
j
=
exp
(
o
j
)
∑
k
exp
(
o
k
)
y_j=\frac{\exp(o_j)}{ {\textstyle \sum_{k}^{}} \exp(o_k)}
yj=∑kexp(ok)exp(oj) ,且满足
0
≤
y
j
≤
1
0 \le y_j \le 1
0≤yj≤1 。
由于softmax运算并未改变类别次序,只是分配了概率,所以还可以通过下式来选择最有可能的类别。
argmax
j
y
^
j
=
argmax
j
o
j
\underset{j}{\operatorname{argmax}} \hat{y}_{j}=\underset{j}{\operatorname{argmax}} o_{j}
jargmaxy^j=jargmaxoj
小批量样本的矢量化
前面咱们进行Softmax运算的时候,是每次处理一个样本,但是这样比较慢。所以我们采用矢量计算。
小批量样本的矢量化是指在机器学习中,对于一批具有相同特征维度的样本数据进行并行计算的技术。通常情况下,将一批样本数据组织成一个矩阵的形式,每一列代表一个特征,每一行代表一个样本.
小批量样本的矢量化可以提升计算效率,并且可以充分利用现代硬件(如GPU)的优势。相比逐个处理样本,矢量化操作能够在单次计算中同时处理多个样本,从而减少了循环操作的开销,提高了计算速度.
假设读取一个批量的样本
X
∈
R
n
×
d
\mathbf{X} \in \mathbb{R}^{n \times d}
X∈Rn×d 。此外假设由q个类别,那么小批量样本的权重为
W
∈
R
d
×
q
\mathbf{W} \in \mathbb{R}^{d \times q}
W∈Rd×q ,偏置为
b
∈
R
1
×
q
\mathbf{b} \in \mathbb{R}^{1 \times q}
b∈R1×q , 此时 Softmax回归的矢量计算表达式为:
O
=
X
W
+
b
Y
^
=
s
o
f
t
m
a
x
(
O
)
\begin{align} \mathbf{O} &= \mathbf{X} \mathbf{W}+\mathbf{b} \\ \hat{\mathbf{Y}} &= softmax(\mathbf{O}) \end{align}
OY^=XW+b=softmax(O)
交叉熵损失函数
上面咱们通过Softmax运算 已经得到了一个概率向量了,那么咱们如何定义损失函数来判断模型在样本上的表现呢?
首先,咱们应该明确预测结果是什么形式,标签是什么形式。
预测结果是一个0~1之间的概率,标签是一个图像的类别编号(0~q-1)
0
≤
y
i
^
≤
1
,
0
≤
y
i
≤
q
−
1
0 \le \hat{y_i} \le 1,0 \le y_i \le q-1
0≤yi^≤1,0≤yi≤q−1
个人理解:用之前是均分损失函数不太行,因为均分损失函数适用于输入的预测结果、实际结果都是连续值;而在Softmax回归中,实际结果是一个类别编号。此时就不适用了。接下来引入一个新的损失函数–交叉熵损失函数。
以下内容来自 B站UP主 王木头学科学,整合其视频写出下面知识点
“交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵”–王木头学科学
首先从信息量开始
信息量
信息量是指一条消息所包含的信息的多少或重要性的程度。
如果一个事件发生的概率非常低,那么当它发生时,所携带的信息量就会很大。而如果一个事件发生的概率很高,那么当它发生时,所携带的信息量相对较少。
信息量常以单位比特(bit)来衡量。
接下来推导信息量的公式。
首先先定义一下信息量的公式
f
(
x
)
:
=
信息量
f(x) := 信息量
f(x):=信息量
接下来上个实例来帮助推导。
需要明确一点:信息量是相对的,它与具体的传递路径无关,而仅仅取决于事件本身的概率分布。无论以何种路径传递信息,只要起点和终点相同,那么信息量就是一样的。
假设阿根廷夺冠
把概率当成信息量公式的自变量,那么就会存在一个等式
f
(
阿根廷夺冠
)
=
f
(
阿根廷进决赛
)
+
f
(
阿根廷赢了决赛
)
f
(
1
8
)
=
f
(
1
4
)
+
f
(
1
2
)
\begin{align} f(阿根廷夺冠) &= f(阿根廷进决赛)+f(阿根廷赢了决赛)\\ f(\frac{1}{8}) &= f(\frac{1}{4}) + f(\frac{1}{2}) \end{align}
f(阿根廷夺冠)f(81)=f(阿根廷进决赛)+f(阿根廷赢了决赛)=f(41)+f(21)
又由于本身就是一个概率,所以
f
(
1
8
)
=
f
(
1
4
×
1
2
)
f(\frac{1}{8})=f(\frac{1}{4} \times \frac{1}{2})
f(81)=f(41×21)
那么等式就变成了 $ f(\frac{1}{4} \times \frac{1}{2})=f(\frac{1}{4})+f(\frac{1}{2}) $
此时整合一下,可以得到如下
f
(
x
)
:
=
信息量
f
(
x
1
×
x
2
)
=
f
(
x
1
)
+
f
(
x
2
)
\begin{align} f(x) :&= 信息量 \\ f(x_1 \times x_2)&=f(x_1) + f(x _2) \end{align}
f(x):f(x1×x2)=信息量=f(x1)+f(x2)
此时有没有想到一个数学函数log,那么定义可以更新成下式。
f
(
x
)
:
=
?
l
o
g
?
x
f(x) := ?log_?x
f(x):=?log?x
此时还有两个需要确定的地方,系数、log底数。
系数一般来说都选择为1,但是咱们之前有一个性质 : 如果一个事件发生的概率非常低,那么当它发生时,所携带的信息量就会很大。由于log函数是单调递增的,所以系数应该为 -1。
那么底数为几已经不重要了,可以以e为底,也可以以2为底
f
(
x
)
:
=
−
log
(
x
)
f(x) := -\log(x)
f(x):=−log(x)
这里咱们省略底数,默认以e为底,后面求梯度的时候方便计算。
熵
在信息论中,熵(英语:entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。这里,“消息”代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)熵的单位通常为比特,但也用Sh、nat、Hart计量,取决于定义用到对数的底。
上面的定义看不懂,可以简单粗暴的理解为,熵可以被看作是一个系统从不确定性到确定性的度量。
那么如何看一个系统里面的熵是大还是小呢?这时候还需要从信息量入手。
还是足球的例子,下面这两个球赛是两个系统。
先写出各个的信息量
比利时:
−
log
1
2
- \log \frac{1}{2}
−log21
阿根廷:
−
log
1
2
- \log \frac{1}{2}
−log21
法国:
−
log
99
100
- \log \frac{99}{100}
−log10099
中国:
−
log
1
100
- \log \frac{1}{100}
−log1001
那么熵应该计算呢?
咱们要明白,信息量其实是在当前事情满足的条件下进行的,不满足这个事件的就不会有信息量。
所以这两个系统的熵应该为
第一个系统
:
1
2
×
(
−
log
1
2
)
+
1
2
×
−
(
log
1
2
)
第二个系统
:
99
100
×
(
−
log
99
100
)
+
1
100
×
−
(
log
1
100
)
\begin{align} 第一个系统&:\frac{1}{2} \times (-\log\frac{1}{2}) + \frac{1}{2} \times -(\log\frac{1}{2}) \\ 第二个系统&:\frac{99}{100} \times (-\log\frac{99}{100}) + \frac{1}{100} \times -(\log\frac{1}{100}) \end{align}
第一个系统第二个系统:21×(−log21)+21×−(log21):10099×(−log10099)+1001×−(log1001)
这个熟悉不,就是期望。
所以熵应该等于
H
(
P
)
=
∑
i
=
1
n
p
i
⋅
f
(
p
i
)
=
∑
i
=
1
n
p
i
⋅
(
−
log
p
i
)
=
−
∑
i
=
1
n
p
i
⋅
log
p
i
\begin{align} H(P)&= \sum_{i=1}^{n}p_i \cdot f(p_i)\\ &= \sum_{i=1}^{n} p_i \cdot (-\log p_i)\\ &= -\sum_{i=1}^{n} p_i \cdot \log p_i \end{align}
H(P)=i=1∑npi⋅f(pi)=i=1∑npi⋅(−logpi)=−i=1∑npi⋅logpi
相对熵
知道了熵,接下来看看怎么衡量两个概率分布之间的差异吧。
相对熵,也称为KL散度(Kullback-Leibler divergence),是信息论中衡量两个概率分布之间差异的度量。它用于比较两个概率分布之间的相似性或差异程度。
看一下定义吧。
当我们有两个系统P、Q时,那么以P为基准的相对熵就等于
D
K
L
(
P
∣
∣
Q
)
:
=
∑
i
=
1
n
p
i
⋅
(
f
Q
(
q
i
)
−
f
P
(
p
i
)
)
=
∑
i
=
1
n
p
i
⋅
(
−
log
q
i
−
(
−
log
p
i
)
)
=
∑
i
=
1
n
p
i
⋅
(
−
log
q
i
)
−
∑
i
=
1
n
p
i
⋅
(
−
log
p
i
)
\begin{align} D_{KL}(P||Q) :&= \sum_{i=1}^{n}p_i \cdot (f_Q(q_i)-f_P(p_i))\\ &= \sum_{i=1}^{n}p_i \cdot (-\log q_i-(- \log p_i))\\ &= \sum_{i=1}^{n}p_i \cdot (-\log q_i) - \sum_{i=1}^{n}p_i \cdot (-\log p_i) \end{align}
DKL(P∣∣Q):=i=1∑npi⋅(fQ(qi)−fP(pi))=i=1∑npi⋅(−logqi−(−logpi))=i=1∑npi⋅(−logqi)−i=1∑npi⋅(−logpi)
其中
∑
i
=
1
n
p
i
⋅
(
−
log
p
i
)
\sum_{i=1}^{n}p_i \cdot (-\log p_i)
∑i=1npi⋅(−logpi) 是系统P的熵,是固定不变的,剩下那个
∑
i
=
1
n
p
i
⋅
(
−
log
q
i
)
\sum_{i=1}^{n}p_i \cdot (-\log q_i)
∑i=1npi⋅(−logqi) 就是交叉熵了。
由吉布斯不等式可以得知
D
K
L
(
P
∣
∣
Q
)
≥
0
D_{KL}(P||Q) \ge 0
DKL(P∣∣Q)≥0
吉布斯不等式
交叉熵
对于确定的概率分布P,它的熵是一个常数。所以要对相对熵进行最小化,只需对交叉熵H(P,Q)做最小化处理即可。
通过最小化交叉熵,就可以得到分布P的近似分布,这也是为什么可以用交叉熵作为网络的损失函数。
H
(
P
,
Q
)
=
∑
i
=
1
n
p
i
⋅
(
−
log
q
i
)
H(P,Q)= \sum_{i=1}^{n}p_i \cdot (-\log q_i)
H(P,Q)=i=1∑npi⋅(−logqi)
这个是推导,接下来看看咱们这里的损失函数。
回忆一下,咱们的类别有
q
q
q 种,预测结果为
y
^
\hat{\mathbf{y}}
y^ ,实际结果为
y
\mathbf{y}
y ,那么此时的损失函数为
l
(
y
,
y
^
)
=
−
∑
j
=
1
q
y
j
log
y
j
^
=
−
∑
j
=
1
q
y
j
log
exp
(
o
j
)
∑
k
=
1
q
exp
(
o
k
)
=
∑
j
=
1
q
y
j
log
∑
k
=
1
q
exp
(
o
k
)
−
∑
j
=
1
q
y
j
o
j
=
log
∑
k
=
1
q
exp
(
o
k
)
−
∑
j
=
1
q
y
j
o
j
\begin{align} l(\mathbf{y},\hat{\mathbf{y}}) &= -\sum_{j=1}^{q}y_j\log \hat{y_j}\\ &= -\sum_{j=1}^{q}y_j \log \frac{\exp(o_j)}{ {\textstyle \sum_{k=1}^{q} \exp(o_k)} } \\ &= \sum_{j=1}^{q}y_j \log \sum_{k=1}^{q} \exp (o_k)-\sum_{j=1}^{q}y_{j}o_{j}\\ &= \log \sum_{k=1}^{q} \exp (o_k) - \sum_{j=1}^{q} y_{j}o_{j} \end{align}
l(y,y^)=−j=1∑qyjlogyj^=−j=1∑qyjlog∑k=1qexp(ok)exp(oj)=j=1∑qyjlogk=1∑qexp(ok)−j=1∑qyjoj=logk=1∑qexp(ok)−j=1∑qyjoj
对于损失函数
l
(
y
,
y
^
)
l(\mathbf{y},\hat{\mathbf{y}})
l(y,y^) 求
o
j
o_j
oj 偏导,那么结果为
∂
l
(
y
,
y
^
)
∂
o
j
=
∂
∂
o
j
log
∑
k
=
1
q
exp
(
o
k
)
−
∑
j
=
1
q
y
j
o
j
=
∂
log
∑
k
=
1
q
exp
(
o
k
)
∂
∑
k
=
1
q
exp
(
o
k
)
×
∂
exp
(
o
j
)
∂
o
j
−
y
j
=
exp
(
o
j
)
∑
k
=
1
q
exp
(
o
k
)
−
y
j
=
s
o
f
t
m
a
x
(
o
j
)
−
y
j
\begin{align} \frac{\partial l(\mathbf{y},\hat{\mathbf{y}})}{\partial o_j} &= \frac{\partial }{\partial o_j} \log \sum_{k=1}^{q} \exp (o_k) - \sum_{j=1}^{q} y_{j}o_{j}\\ &=\frac{\partial \log \sum_{k=1}^{q} \exp (o_k)}{\partial \sum_{k=1}^{q} \exp (o_k)} \times \frac{\partial \exp(o_j)}{\partial o_j}- y_{j}\\ &= \frac{\exp(o_j)}{\sum_{k=1}^{q} \exp (o_k)} - y_{j}\\ &= softmax(o_j)-y_j \end{align}
∂oj∂l(y,y^)=∂oj∂logk=1∑qexp(ok)−j=1∑qyjoj=∂∑k=1qexp(ok)∂log∑k=1qexp(ok)×∂oj∂exp(oj)−yj=∑k=1qexp(ok)exp(oj)−yj=softmax(oj)−yj
注意:只有 k = j时,求偏导的结果才不是0,其他值都为0。
图片分类数据集
在进行实践之前,先来学习一下如何读取图片数据集。
图片分类数据集是用于机器学习和深度学习任务中的一个常见类型的数据集。它包含了多个不同类别的图像样本,每个样本都标注有对应的类别标签。训练模型时,我们使用这些带有标签的图像来学习模型将图像分配到正确的类别中。
MNIST数据集是图像分类中广泛使用的数据集之一,但作为基准数据集太简单,所以选择使用Fashion MNIST数据集。
Fashion MNIST数据集
Fashion MNIST 数据集是一个广泛使用的图像分类数据集,通常用于测试和验证机器学习和深度学习模型在服装和时尚领域的性能。它是 MNIST 数据集的一个替代版本,包含了10个不同类别的时尚物品图像样本。
类别:10类别的时尚物品
- T-shirt/top(T恤/上衣)
- Trouser(裤子)
- Pullover(套头衫)
- Dress(连衣裙)
- Coat(外套)
- Sandal(凉鞋)
- Shirt(衬衫)
- Sneaker(运动鞋)
- Bag(包)
- Ankle boot(短靴)
图像样本
每个图像样本都是一张28x28像素的灰度图像,总共有60,000个训练样本和10,000个测试样本。
数据获取
在 TensorFlow 中,可以使用 tf.keras.datasets.fashion_mnist 模块来加载数据集。在 PyTorch 中,可以使用 torchvision.datasets.FashionMNIST 数据集类来加载数据集。
读取数据集
首先导入需要的包
%matplotlib inline
import torch
import torchvision #计算机相关的库,通过常用数据集、模型架构、图像转换等功能
from torch.utils import data #用于处理数据和构建数据加载集
from torchvision import transforms #用于图像的转换操作
from d2l import torch as d2l #导入d2l的torch模块,并命名为d2l
d2l.use_svg_display() #用于设置在 Jupyter Notebook 中显示 SVG 格式的绘图输出
下载并读取到内存中
trans = transforms.ToTensor() #创建对象,用于将图像转换为张量
mnist_train = torchvision.datasets.FashionMNIST(
root="../data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
root="../data", train=False, transform=trans, download=True)
# root为下载路径;train表示是否为训练集,true为训练集,false为测试集,download表示如果文件不存在,就下载
可以看看训练集是不是为60000,测试集为10000
len(mnist_train),len(mnist_test)
接下来,咱们可以查看图像数据的形状
mnist_train[0][0].shape
1是通道数,由于是灰度照片,所以为1;彩色照片的通道数为3。28、28表示高度和宽度,图像的的尺寸为28*28.
前面已经说了图像的类别,接下来写一个函数用于在数字标签索引及其文本名称之间进行转换。
def get_fashion_mnist_labels(labels):
"""返回Fashion-MNIST数据集的文本标签"""
text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat','sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']
return [text_labels[int(i)] for i in labels]
接下来绘制一下这些图片
def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5):
"""绘制图像列表"""
figsize = (num_cols * scale, num_rows * scale)
_, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)
axes = axes.flatten()
for i, (ax, img) in enumerate(zip(axes, imgs)):
if torch.is_tensor(img):
# 图片张量
ax.imshow(img.numpy())
else:
# PIL图片
ax.imshow(img)
ax.axes.get_xaxis().set_visible(False)
ax.axes.get_yaxis().set_visible(False)
if titles:
ax.set_title(titles[i])
return axes
可以试一下符合咱们想要的效果不
X, y = next(iter(data.DataLoader(mnist_train, batch_size=18)))
show_images(X.reshape(18, 28, 28), 2, 9, titles=get_fashion_mnist_labels(y))
可以看到,已经出现了图片和标题。
为什么会出现标题呢?
其实是因为 Fashion MNIST数据集每一行有两个信息,第一个是图片信息,第二个是类别编号、从0~9,咱们把数字列表传递到 get_fashion_mnist_labels函数,根据标签返回字符串。
读取小批量
和之前一样,利用内置的数据迭代器,读取大小为batch_size的数据。
batch_size = 256
def get_dataloader_workers():
"""使用4个进程来读取数据"""
return 4
train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True,num_workers=get_dataloader_workers())
整合所有组件
最后在定义一个函数,用于读取和获取Fashion MNIST数据集,规划训练集和验证集的数据迭代器。还可以接受一个参数,用于调整图像形状。
def load_data_fashion_mnist(batch_size,resize=None):
trans = [transforms.ToTensor()]
if resize: #如果指定形状的话,把操作添加进trans,等待操作
trans.insert(0,transforms.Resize(resize))
trans = transforms.Compose(trans) #把列表转换为transforms.Compose对象,以便顺序应用操作
mnist_train = torchvision.datasets.FashionMNIST(
root="../data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
root="../data", train=False, transform=trans, download=True)
return (data.DataLoader(mnist_train, batch_size, shuffle=True,
num_workers=get_dataloader_workers()),
data.DataLoader(mnist_test, batch_size, shuffle=False,
num_workers=get_dataloader_workers()))
注:transforms.Compose类 主要作用就是串联多个图片进行变换,将里面的元素挨个遍历,执行transforms操作
Softmax回归从零实现
掌握了原理后,来实践一下吧。
读取数据集
这里咱们读取数据集不需要我们实现,而是调用 d2l里面的 load_data_fashion_mnist函数,上面图片分类数据集的内容是为了让我们知道这个函数的底层原理。
!pip install d2l #colab连接后需要安装一下d2l库
import torch
from IPython import display
from d2l import torch as d2l
batch_size = 256
train_iter,test_iter = d2l.load_data_fashion_mnist(batch_size)
定义模型
还记得模型是什么吗?
o
=
W
X
+
b
\mathbf{o}=\mathbf{W} \mathbf{X}+\mathbf{b}
o=WX+b
这个是未进行softmax运算的模型。
这个里面的
X
\mathbf{X}
X 是一个矩阵,而咱们迭代器的数据形状为
(
b
a
t
c
h
_
s
i
z
e
,
28
,
28
)
(batch\_size,28,28)
(batch_size,28,28) ,通道数省略了,是一个三维的。这时候咱们需要把数据转换为 二维(矩阵)。也就是把每一个图像从矩阵展平为向量。
def net(X):
return softmax(torch.matmul(X.reshape(-1,W.shape[0]),W)+b)
# 进行softmax运算,-1会自动求,X的列数为 W.shape[0]
定义softmax运算
接下来写一下softmax运算。回忆一下步骤。
- 对每一个元素进行求幂
- 对每一行进行求和(在小批量样本中,每个样本是一行),得到每个样本的规范化常数
- 将每一行除以规范化常数
注意:使用sum求和时会降维,无法使用广播机制进行其他操作,需要使用非降维求和.
def softmax(X):
X_exp = torch.exp(X)
partition = X_exp.sum(axis=1,keepdim=True) #只有形状一致才能使用广播机制,所以需要不降维求和
return X_exp / partition
初始化模型参数
咱们前面已经说了,把图像数据从二维矩阵(28,28)转换到 长度为784的向量。类别 等于10
所以权重把初始化为 均值为0,标准差为0.01,形状为 (784,10)的矩阵。
偏差还是长度为10的列向量,元素值为0.
num_inputs = 784
num_outputs = 10
W = torch.normal(0,0.01,size=(num_inputs,num_outputs),requires_grad = True)
b = torch.zeros(nums_outputs,requires_grad=True)
定义损失函数
还记得损失函数的定义吗?
l
(
y
,
y
^
)
=
−
∑
j
=
1
q
y
j
log
y
j
^
l(\mathbf{y},\hat{\mathbf{y}}) = -\sum_{j=1}^{q}y_j\log \hat{y_j}
l(y,y^)=−j=1∑qyjlogyj^
咱们需要遍历每一个样本的每一个元素然后乘以真实的概率。但是咱们可以仔细想一下,有必要乘以真实概率吗?
由于是one-hot编码,所以非0即1,咱们只需要把真实标签的预测概率拿出来就可以了。采用高级索引的方式来选取。
高级索引(advanced indexing)是指在 NumPy/pytorch 中使用一组整数数组或布尔数组来进行多维数组的索引操作,可以快速从多维数组选取。
这里咱们用的整数数组来进行高级索引。
举例
y = torch.tensor([0, 2])
y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
y_hat[[0, 1], y]
那么结果应该为第一行的下标为0的元素、第二行下标为2的元素,也就是 0.1、0.5
那么利用高级索引的特性可以进行损失函数的操作
def cross_entropy(y_hat,y):
return - torch.log(y_hat[range(len(y_hat)),y])
分类精度
当我们预测完后,手里会有一个概率分布,通常会输出概率最高的类。当输出的类 与 标签分类 y 是一致时,才说明正确的。
分类精度即正确预测数量与总预测数量之比。虽然不能优化精度,但精度通常是性能衡量标准。
那么如何计算精度呢?
首先先来明确我们的数据,前面读取小批量后,预测结果是一个矩阵
Y
^
\hat{\mathbf{Y}}
Y^ ,形状为 $(batch_size,q) $ ;标签为一个列向量
y
\mathbf{y}
y,每一行是每一个样本的真实类别。
所以咱们只需要找到
Y
^
\hat{\mathbf{Y}}
Y^ 中每一行的最大概率的下标,判断是否与
y
\mathbf{y}
y 相等即可。
注意: == 对数据类型比较敏感,需要进行数据转换。
def accuracy(y_hat,y):
# 统计预测结果正确的数量
if len(y_hat.shape) > 1 and y_hat.shape[1] > 1: #保证y_hat为二维矩阵
y_hat = y_hat.argmax(axis = 1) #找每一行的最大概率的索引
cmp = y_hat.type(y.dtype) == y #布尔类型列向量
return float(cmp.type(y.dtype).sum()) # true为1,false为0
现在已经统计了预测正确的数量了,那么分类精度就等于
accutacy(y_hat,y) / len(y)
那么我们就可以评估模型的精度了。
def evaluate_accuracy(net,data_iter):
# 计算指定数据集的分类精度
if isinstance(net,torch.nn.Module): #如果net是torch.nn.Module的实例对象的,那么切换评估模式
net.eval()
metric = Accumulator(2) #用来累加预测正确的数量、样本数量
with torch.no_grad():
for X,y in data_iter:
metric.add(accuracy(net(X),y),y.numel()) # numel函数统计向量长度
return metric[0] / metric[1] # 返回精度
其中 Acccumulator是一个自定义的累加器类,用于对多个变量进行累加。
代码里面我们在Accumulateor创建了两个变量,存储预测正确的数量、样本数量,当我们变量样本的时候,会进行累加,最后相除就是精度了。
对Accumulateor类感兴趣的话,可以看看内部构造。
class Accumulator:
"""在n个变量上累加"""
def __init__(self, n):
self.data = [0.0] * n
def add(self, *args):
self.data = [a + float(b) for a, b in zip(self.data, args)]
def reset(self):
self.data = [0.0] * len(self.data)
def __getitem__(self, idx):
return self.data[idx]
定义优化算法
设置学习率,然后调用d2l库封装好的 sgd函数,实现原理也就是我们在线性回归里面的那样。
lr = 0.1
def updater(batch_size):
return d2l.sgd([W,b],lr,batch_size)
训练
最后就是训练了。
首先我们先封装一个函数,把前面定义的函数在里面调用,只需要传入数据即可,因为这个后面会经常用到。
def train_epoch_ch3(net,train_iter,loss,updater):
if isinstance(net,torch.nn.Module): #如果net是torch.nn.Moudule对象的话,设置为训练模式
net.train()
metric = Accumulator(3) #用于累加损失值、预测正确的数量、样本数量
for X,y in train_iter:
y_hat = net(X)
l = loss(y_hat,y)
if isinstance(updater,torch.optim.Optimizer): #如果updater是torch.optim.Optimizer的实例,使用梯度下降方法的优化器
updater.zero_grad() #清除梯度
l.mean().backward() #计算平均损失值的梯度,咱们之前自己实现的乘以1/2了
updater.step
else: #使用自定义优化器
l.sum().backward() #计算总损失值梯度
updater(X.shape[0]) #表示每一行的样本数量,也就是batch_size
metric.add(float(l.sum()),accuracy(y_hat,y),y.numel()) #累加
return metric[0] / metric[2],metric[1] / metric[2] #返回平均损失精度、平均分类精度
接下来,为了清晰看到训练过程,定义一个Animator,这个在d2l库定义的有
class Animator:
"""在动画中绘制数据"""
def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
ylim=None, xscale='linear', yscale='linear',
fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
figsize=(3.5, 2.5)):
# 增量地绘制多条线
if legend is None:
legend = []
d2l.use_svg_display()
self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)
if nrows * ncols == 1:
self.axes = [self.axes, ]
# 使用lambda函数捕获参数
self.config_axes = lambda: d2l.set_axes(
self.axes[0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
self.X, self.Y, self.fmts = None, None, fmts
def add(self, x, y):
# 向图表中添加多个数据点
if not hasattr(y, "__len__"):
y = [y]
n = len(y)
if not hasattr(x, "__len__"):
x = [x] * n
if not self.X:
self.X = [[] for _ in range(n)]
if not self.Y:
self.Y = [[] for _ in range(n)]
for i, (a, b) in enumerate(zip(x, y)):
if a is not None and b is not None:
self.X[i].append(a)
self.Y[i].append(b)
self.axes[0].cla()
for x, y, fmt in zip(self.X, self.Y, self.fmts):
self.axes[0].plot(x, y, fmt)
self.config_axes()
display.display(self.fig)
display.clear_output(wait=True)
会用即可,不需要读太懂,就是MATLAB画图。
最后调用 上面封装的训练过程函数即可
def train_ch3(net,train_iter,test_iter,loss,num_epichs,updater):
animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],
legend=['train loss', 'train acc', 'test acc'])
for epoch in range(num_epochs):
train_metrics = train_ecpoh_ch3(net,train_iter,loss,updater):
test_acc = evaulate_accuracy(net,test_iter)
animator.add(epoch + 1, train_metrics + (test_acc,))
train_loss,train_acc = train_metrics
# 训练过程中的指标进行验证和断言(assertion)
assert train_loss < 0.5, train_loss #训练损失小于0.5,抛出AssertionError
assert train_acc <= 1 and train_acc > 0.7, train_acc #训练精度小于0.5,抛出AssertionError
assert test_acc <= 1 and test_acc > 0.7, test_acc #训练损失小于0.5,抛出AssertionError
最后调用函数即可
num_epochs = 20
train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, updater)
预测
模型训练好后,可以进行预测了
def predict_ch3(net, test_iter, n=20):
"""预测标签(定义见第3章)"""
for X, y in test_iter:
break
trues = d2l.get_fashion_mnist_labels(y)
preds = d2l.get_fashion_mnist_labels(net(X).argmax(axis=1))
titles = [true +'\n' + pred for true, pred in zip(trues, preds)]
d2l.show_images(
X[0:n].reshape((n, 28, 28)), 1, n, titles=titles[0:n])
predict_ch3(net, test_iter)
Softmax回归简洁实现
由于Softmax回归是比较常用的分类算法,所以深度学习框架里面都有API可以快速实现。接下来看看如何简洁实现。
读取数据集
!pip intall d2l
import torch
from torch import nn
from d2l import torch as d2l
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
定义并初始化模型参数
回忆一下,模型的输入和输出是什么?
咱们把一个图像从矩阵展平到向量,但是由于pytorch不会自动调整输入的形状,只能自己手动定义。所以先定义一个展平层,来调整输入的形状。接下来再定义一个10个输出的全连接层即可。
net = nn.Sequential(nn.Flatten(),nn.Linear(784,10))
def init_weights(m):
if type(m) == nn.Linear: #如果是nn.Linear对象的话,那么初始化权重
nn.init.normal_(m.weight,std=0.01)
net.apply(init_weights)
为什么没有初始化偏置呢?
当创建一个线性层时,PyTorch 会自动初始化偏置项,默认使用 0 值来进行初始化。
定义损失函数
损失函数使用pytorch提供的CrossEntropyLoss函数,不用手动实现。有几个点需要注意。
在计算损失的时候,有两个输入
Y
^
、
y
\hat{\mathbf{Y}}、\mathbf{y}
Y^、y ,其中
Y
^
\hat{\mathbf{Y}}
Y^ 为未经过规范化(Softmax运算)从net输出的结果,和之前一样,还是真实的类别编号。
Softmax运算在CrossEntropyLoss里面进行运算。
loss = nn.CrossEntropyLoss()
定义优化算法
使用pytorch里面提供的优化算法
trainer = torch.optim.SGD(net.parameters(),lr = 0.1)
# net.parameters()返回包含net模型参数的迭代器
训练
最后使用d2l库封装好的 训练函数即可
num_epochs = 10
d2l.train_ch3(net,train_iter,test_iter,loss,num_epochs,trainer)
预测
还是调用d2l库封装的函数
d2l.predict_ch3(net, test_iter,n=20)