模块二 week2

目录

1、TensorFlow 中训练神经网络的步骤

2、Tensor Flow在训练神经网络中做些什么

2.1 回顾::如何训练逻辑回归模型?

2.2 Tensor flow中训练神经网络(类似上面):

3、常用的激活函数及如何选择

3.1  常见的激活函数           

 3.2 针对不同神经元如何选择激活函数

4、为什么要使用激活函数

5、多分类问题及softmax回归算法

5.1、多分类定义

5.2、softmax

 5.3、带有 softmax 输出层的神经网络

5.4  多标签分类问题

 6、Adam算法--比梯度下降更好的算法来最小化代价函数

 7、卷积层


1、TensorFlow 中训练神经网络的步骤

指定模型,告诉TensorFlow如何计算推断。

②让TensorFlow去编译模型的关键步骤是:指定要使用的损失函数(这次使用:稀疏分类交叉熵)

③调用拟合函数,去拟合①中确定的模型。epchos:学习算法进行梯度下降的步数 

2、Tensor Flow在训练神经网络中做些什么

2.1 回顾::如何训练逻辑回归模型?

        1、明确逻辑回归的输入输出函数是啥

        2、指定损失函数or代价函数

        3、用一个具体的梯度下降算法来最小化代价函数J

2.2 Tensor flow中训练神经网络(类似上面)

  1. 指定如何在给定输入特征 x 和参数 w 和 b 的情况下计算输出(定义模型)。
  2. 编译这个模型,指定损失函数(这里用的二元交叉熵损失函数),则整个训练集损失的平均就是模型的代价函数
  3. 调用函数最小化神经网络函数的代价。

         具体举例:

        ①定义模型

 ②明确损失函数

 ③最小化交叉函数

如果使用梯度下降(比梯度下降更快的方法见。。。)来更新参数,那么我们需要对每一层每一单元更新参数,关键就是计算偏导项,而 TensorFlow 是使用一种称为反向传播的算法来计算这些偏导项(在 fit 函数中已经实现,只需要直接调用 fit 函数即可,然后告诉他需要迭代多少次)

3、常用的激活函数及如何选择

3.1  常见的激活函数           

1、线性激活函数           2、Sigmoid函数      3、线性整流函数   4、softmax激活函数(见5.2)

 3.2 针对不同神经元如何选择激活函数

输出层::为输出层选择激活函数时,取决于预测的标签 y 是什么

        二分类问题:选择 sigmoid 激活函数
        y 可取正/负值的回归问题:选择线性激活函数
        y只能取非负值的回归问题:选择 ReLu 激活函数

隐藏层::ReLU 激活函数

        为何使用 ReLU 替代 Sigmoid 呢?
                ①ReLU 的计算速度快一些;
                ②ReLU 函数仅在图像中的一部分变平,而 sigmoid 函数它在两个地方变平,如果我们                       使用梯度下降来训练神经网络,当函数有很多平坦的地方时,梯度下降很慢。虽然梯                       度下降优化代价函数 J,而不是激活函数,但激活函数是计算的一部分,如果使用                           sigmiod,导致在代价函数中的很多地方也是平坦的,梯度很小,减慢了学习的速度。

4、为什么要使用激活函数

如果所有的激活函数都是用线性激活函数,那么神经网络将变得与线性回归模型没什么不同。

5、多分类问题及softmax回归算法

5.1、多分类定义

        不止有两个可能输出的分类问题。y只能取有限的离散值而非数字

5.2、softmax

        是针对多分类的二元分类算法。

 2.1    softmax公式如框内所示:其中  aj:输入特征是x的情况下,y=j 的概率估计

                                                      当 n = 2 时,softmax 回归会简化为逻辑回归。

 2.2  softmax回归的损失函数

 5.3、带有 softmax 输出层的神经网络

注意:: softmax 激活函数与其他激活函数不同的是:(绿框)其他激活函数中,aj 只是 zj 的函数;而在 softmax 激活函数中,aj 是 z1 到 zn 的函数。

代码实现:

         这里使用的损失函数是 SparseCategoricalCrossentropy

                categorical :是指我们这是个分类问题(比如手写数字分类问题)

                sparse :是指只能取有限类别中的一种(比如数字只能是 4 或 7,而不可能是 4 和 7)

        上述版本是可工作的,但不是最好的,所以不要使用这个版本,改进方法如下:

  当我们不计算 a 作为中间项时,而是使用展开的表达式,那么 TensorFlow 可以重新排列这个表达式中的项,并想出一种在数值上更准确的方法来计算这个损失函数。

改进代码的作用是:将输出层的激活函数改成线性激活函数,然后相当于是使用了展开的损失函数,将 z 直接代入损失函数,TensorFlow 可以重新排列这个表达式中的项,使计算变得更准确。

一个值得注意的细节:神经网络输出的不再是概率 a1…a10,而是z1…z10

5.4  多标签分类问题

1 多分类 和 多标签 的区别

        多分类问题:有两个以上可能的输出标签,比如手写数字识别,预测结果是一个类别。

        多标签问题:每个输入关联了多个标签,预测结果是一个向量

2、如何使用神经网络解决多标签分类问题?
        可以训练一个网络同时检测三种物体。输出层每个单元都使用 sigmoid 激活函数,分别对应是否有小汽车,是否有公共汽车,是否有行人三个二分类问题。

 6、Adam算法--比梯度下降更好的算法来最小化代价函数

Adam 算法可以做到自己调整学习率,如果它发现学习率太大(只是朝着相似的方向迈出微小的步伐),则它会让学习率增大;如果它发现学习率太小(来回震荡着迈步),则它会让学习率减小。

 7、卷积层

全连接层:(之前讲的那些)每个神经元都会是前一层的所有激活作为自己的输入

卷积层:每个神经元只是前一层的部分激活作为自己的输入。比如下图,隐藏层的第一个神经元只能看到对应的蓝色区域,以此类推

 为什么不让神经元看到前一层的所有像素,而只看一部分像素?
加快计算速度。②需要更少的训练数据或者不太容易出现过拟合

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值