模块二 week2

今天你吃了吗a

已于 2023-01-15 16:15:52 修改

阅读量450

点赞数

分类专栏：机器学习文章标签：人工智能 tensorflow 深度学习

于 2023-01-15 16:15:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhayuu/article/details/128693681

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目录

1、TensorFlow 中训练神经网络的步骤

2、Tensor Flow在训练神经网络中做些什么

2.1 回顾：：如何训练逻辑回归模型？

2.2 Tensor flow中训练神经网络（类似上面）：

3、常用的激活函数及如何选择

3.1 常见的激活函数

3.2 针对不同神经元如何选择激活函数

4、为什么要使用激活函数

5、多分类问题及softmax回归算法

5.1、多分类定义

5.3、带有 softmax 输出层的神经网络

5.4 多标签分类问题

6、Adam算法--比梯度下降更好的算法来最小化代价函数

1、TensorFlow 中训练神经网络的步骤

①指定模型，告诉TensorFlow如何计算推断。

②让TensorFlow去编译模型的关键步骤是：指定要使用的损失函数（这次使用：稀疏分类交叉熵）

③调用拟合函数，去拟合①中确定的模型。epchos:学习算法进行梯度下降的步数

2、Tensor Flow在训练神经网络中做些什么

2.1 回顾：：如何训练逻辑回归模型？

1、明确逻辑回归的输入输出函数是啥

2、指定损失函数or代价函数

3、用一个具体的梯度下降算法来最小化代价函数J

2.2 Tensor flow中训练神经网络（类似上面）：

指定如何在给定输入特征 x 和参数 w 和 b 的情况下计算输出（定义模型）。
编译这个模型，指定损失函数（这里用的二元交叉熵损失函数），则整个训练集损失的平均就是模型的代价函数
调用函数最小化神经网络函数的代价。

具体举例：

①定义模型

②明确损失函数

③最小化交叉函数

如果使用梯度下降（比梯度下降更快的方法见。。。）来更新参数，那么我们需要对每一层每一单元更新参数，关键就是计算偏导项，而 TensorFlow 是使用一种称为反向传播的算法来计算这些偏导项（在 fit 函数中已经实现，只需要直接调用 fit 函数即可，然后告诉他需要迭代多少次）

3、常用的激活函数及如何选择

3.1 常见的激活函数

1、线性激活函数 2、Sigmoid函数 3、线性整流函数 4、softmax激活函数（见5.2）

3.2 针对不同神经元如何选择激活函数

输出层：：为输出层选择激活函数时，取决于预测的标签 y 是什么

二分类问题：选择 sigmoid 激活函数。
y 可取正/负值的回归问题：选择线性激活函数。
y只能取非负值的回归问题：选择 ReLu 激活函数。

隐藏层：：ReLU 激活函数

        为何使用 ReLU 替代 Sigmoid 呢？
                ①ReLU 的计算速度快一些；
                ②ReLU 函数仅在图像中的一部分变平，而 sigmoid 函数它在两个地方变平，如果我们 使用梯度下降来训练神经网络，当函数有很多平坦的地方时，梯度下降很慢。虽然梯度下降优化代价函数 J，而不是激活函数，但激活函数是计算的一部分，如果使用 sigmiod，导致在代价函数中的很多地方也是平坦的，梯度很小，减慢了学习的速度。

4、为什么要使用激活函数

如果所有的激活函数都是用线性激活函数，那么神经网络将变得与线性回归模型没什么不同。

5、多分类问题及softmax回归算法

5.1、多分类定义

不止有两个可能输出的分类问题。y只能取有限的离散值而非数字

5.2、softmax

是针对多分类的二元分类算法。

2.1 softmax公式如框内所示：其中 aj：输入特征是x的情况下，y=j 的概率估计

当 n = 2 时，softmax 回归会简化为逻辑回归。

2.2 softmax回归的损失函数

5.3、带有 softmax 输出层的神经网络

注意：： softmax 激活函数与其他激活函数不同的是：（绿框）其他激活函数中，aj 只是 zj 的函数；而在 softmax 激活函数中，aj 是 z1 到 zn 的函数。

代码实现：

这里使用的损失函数是 SparseCategoricalCrossentropy。

categorical ：是指我们这是个分类问题（比如手写数字分类问题）

sparse ：是指只能取有限类别中的一种（比如数字只能是 4 或 7，而不可能是 4 和 7）

上述版本是可工作的，但不是最好的，所以不要使用这个版本，改进方法如下：

当我们不计算 a 作为中间项时，而是使用展开的表达式，那么 TensorFlow 可以重新排列这个表达式中的项，并想出一种在数值上更准确的方法来计算这个损失函数。

改进代码的作用是：将输出层的激活函数改成线性激活函数，然后相当于是使用了展开的损失函数，将 z 直接代入损失函数，TensorFlow 可以重新排列这个表达式中的项，使计算变得更准确。

一个值得注意的细节：神经网络输出的不再是概率 a1…a10，而是z1…z10

5.4 多标签分类问题

1 多分类和多标签的区别

多分类问题：有两个以上可能的输出标签，比如手写数字识别，预测结果是一个类别。

多标签问题：每个输入关联了多个标签，预测结果是一个向量

2、如何使用神经网络解决多标签分类问题？
可以训练一个网络同时检测三种物体。输出层每个单元都使用 sigmoid 激活函数，分别对应是否有小汽车，是否有公共汽车，是否有行人三个二分类问题。

6、Adam算法--比梯度下降更好的算法来最小化代价函数

Adam 算法可以做到自己调整学习率，如果它发现学习率太大（只是朝着相似的方向迈出微小的步伐），则它会让学习率增大；如果它发现学习率太小（来回震荡着迈步），则它会让学习率减小。

7、卷积层

全连接层：（之前讲的那些）每个神经元都会是前一层的所有激活作为自己的输入

卷积层：每个神经元只是前一层的部分激活作为自己的输入。比如下图，隐藏层的第一个神经元只能看到对应的蓝色区域，以此类推

为什么不让神经元看到前一层的所有像素，而只看一部分像素？
①加快计算速度。②需要更少的训练数据或者不太容易出现过拟合

今天你吃了吗a

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模块二 week2

机器学习
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。