目录
1、TensorFlow 中训练神经网络的步骤
①指定模型,告诉TensorFlow如何计算推断。
②让TensorFlow去编译模型的关键步骤是:指定要使用的损失函数(这次使用:稀疏分类交叉熵)
③调用拟合函数,去拟合①中确定的模型。epchos:学习算法进行梯度下降的步数
2、Tensor Flow在训练神经网络中做些什么
2.1 回顾::如何训练逻辑回归模型?
1、明确逻辑回归的输入输出函数是啥
2、指定损失函数or代价函数
3、用一个具体的梯度下降算法来最小化代价函数J
2.2 Tensor flow中训练神经网络(类似上面):
- 指定如何在给定输入特征 x 和参数 w 和 b 的情况下计算输出(定义模型)。
- 编译这个模型,指定损失函数(这里用的二元交叉熵损失函数),则整个训练集损失的平均就是模型的代价函数
- 调用函数最小化神经网络函数的代价。
具体举例:
①定义模型
②明确损失函数
③最小化交叉函数
如果使用梯度下降(比梯度下降更快的方法见。。。)来更新参数,那么我们需要对每一层每一单元更新参数,关键就是计算偏导项,而 TensorFlow 是使用一种称为反向传播的算法来计算这些偏导项(在 fit 函数中已经实现,只需要直接调用 fit 函数即可,然后告诉他需要迭代多少次)
3、常用的激活函数及如何选择
3.1 常见的激活函数
1、线性激活函数 2、Sigmoid函数 3、线性整流函数 4、softmax激活函数(见5.2)
3.2 针对不同神经元如何选择激活函数
输出层::为输出层选择激活函数时,取决于预测的标签 y 是什么
二分类问题:选择 sigmoid 激活函数。
y 可取正/负值的回归问题:选择线性激活函数。
y只能取非负值的回归问题:选择 ReLu 激活函数。
隐藏层::ReLU 激活函数
为何使用 ReLU 替代 Sigmoid 呢?
①ReLU 的计算速度快一些;
②ReLU 函数仅在图像中的一部分变平,而 sigmoid 函数它在两个地方变平,如果我们 使用梯度下降来训练神经网络,当函数有很多平坦的地方时,梯度下降很慢。虽然梯 度下降优化代价函数 J,而不是激活函数,但激活函数是计算的一部分,如果使用 sigmiod,导致在代价函数中的很多地方也是平坦的,梯度很小,减慢了学习的速度。
4、为什么要使用激活函数
如果所有的激活函数都是用线性激活函数,那么神经网络将变得与线性回归模型没什么不同。
5、多分类问题及softmax回归算法
5.1、多分类定义
不止有两个可能输出的分类问题。y只能取有限的离散值而非数字
5.2、softmax
是针对多分类的二元分类算法。
2.1 softmax公式如框内所示:其中 aj:输入特征是x的情况下,y=j 的概率估计
当 n = 2 时,softmax 回归会简化为逻辑回归。
2.2 softmax回归的损失函数
5.3、带有 softmax 输出层的神经网络
注意:: softmax 激活函数与其他激活函数不同的是:(绿框)其他激活函数中,aj 只是 zj 的函数;而在 softmax 激活函数中,aj 是 z1 到 zn 的函数。
代码实现:
这里使用的损失函数是 SparseCategoricalCrossentropy。
categorical :是指我们这是个分类问题(比如手写数字分类问题)
sparse :是指只能取有限类别中的一种(比如数字只能是 4 或 7,而不可能是 4 和 7)
上述版本是可工作的,但不是最好的,所以不要使用这个版本,改进方法如下:
当我们不计算 a 作为中间项时,而是使用展开的表达式,那么 TensorFlow 可以重新排列这个表达式中的项,并想出一种在数值上更准确的方法来计算这个损失函数。
改进代码的作用是:将输出层的激活函数改成线性激活函数,然后相当于是使用了展开的损失函数,将 z 直接代入损失函数,TensorFlow 可以重新排列这个表达式中的项,使计算变得更准确。
一个值得注意的细节:神经网络输出的不再是概率 a1…a10,而是z1…z10
5.4 多标签分类问题
1 多分类 和 多标签 的区别
多分类问题:有两个以上可能的输出标签,比如手写数字识别,预测结果是一个类别。
多标签问题:每个输入关联了多个标签,预测结果是一个向量
2、如何使用神经网络解决多标签分类问题?
可以训练一个网络同时检测三种物体。输出层每个单元都使用 sigmoid 激活函数,分别对应是否有小汽车,是否有公共汽车,是否有行人三个二分类问题。
6、Adam算法--比梯度下降更好的算法来最小化代价函数
Adam 算法可以做到自己调整学习率,如果它发现学习率太大(只是朝着相似的方向迈出微小的步伐),则它会让学习率增大;如果它发现学习率太小(来回震荡着迈步),则它会让学习率减小。
7、卷积层
全连接层:(之前讲的那些)每个神经元都会是前一层的所有激活作为自己的输入
卷积层:每个神经元只是前一层的部分激活作为自己的输入。比如下图,隐藏层的第一个神经元只能看到对应的蓝色区域,以此类推
为什么不让神经元看到前一层的所有像素,而只看一部分像素?
①加快计算速度。②需要更少的训练数据或者不太容易出现过拟合