第1课神经网络和深度学习第1周__深度学习概论

最新推荐文章于 2024-10-08 19:06:52 发布

山野村夫_pro

最新推荐文章于 2024-10-08 19:06:52 发布

阅读量658

点赞数

分类专栏：深度学习工程师（Andrew Ng 5门课）文章标签：深度学习吴恩达神经网络监督学习

本文链接：https://blog.csdn.net/wwyl1001/article/details/80789284

版权

深度学习工程师（Andrew Ng 5门课）专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第1课神经网络和深度学习第1周__深度学习概论

=======================

1.1 什么是神经网络？

1.2 监督学习

1.3 为什么深度学习会兴起？

=======================

1.1 什么是神经网络？

下面用房价预测的例子，来解释什么神经网络。

先来看一个简单的神经网络（单个神经元）。

假如我们要建立一个预测房价的模型，现在我们有6个房子的数据。输入x是房子的面积，输出y是房子价格，房价模型是y = f(x)。这是线性回归问题，因为输出是连续的值。

上图中，红叉表示房子数据点，建立房价预测模型就是要找到一个函数来拟合这些房子数据点。从实际考虑，房价不会是负数，所以我们对拟合直线做了修正，在直线的底部是折线，当面积小于某个值时，房价为0。上图中蓝色折线就是我们建立的房价预测模型。

上图可以抽象成一个最简单的神经网络模型表示，如下图所示：

“neuron”表示神经元，该神经元功能就是实现函数f(x)。这个房价预测模型（函数）在神经网络应用中比较常见，它是ReLU（Rectified Linear Unit）函数，即修正线性单元。ReLU函数图形如下：

接下来，看一下多神经元的房价预测的例子。其实，大型复杂的神经网络由许许多多的神经元组成，就像乐高积木一样。

决定房价的通常不只是房子面积一个特性，比如：

卧室数目（bedrooms）：房子面积（size）和卧室数目（bedrooms）一般决定了家庭大小（family size）。
邮政编码（postal code）：决定了交通便利性，即可步行性（walkability）
地区财富水平（wealth）：跟邮政编码决定了学校质量（school quality）

上面例子中，最终的神经网络模型结构如下所示。输入是x（x₁, x₂, x₃,x₄），输出是y。这里你可能会疑惑，上图family size是由size和bedrooms决定，在下图中怎么postal code和wealth也决定了呢？你把postal code和wealth的权重看做非常小或者是0就可以了。

1.2 监督学习

监督学习是指训练数据有标记信息，即对于某些给定的数据集，我们知道它的输出。监督学习有回归和分类：

回归：预测的输出是连续值，即用连续函数去拟合输入值。如房子预测。
分类：预测的输出离散值，即把输入值划分为几类。如图像识别。

下面是一些监督学习的例子：

房价预测：根据训练样本的输入x和输出y，训练神经网络模型，预测房价。
线上广告：这是深度学习最广泛、最赚钱的应用之一。其中，输入x是广告和用户个人信息，输出y是用户是否对广告进行点击。神经网络模型经过训练，能够根据广告类型和用户信息对用户的点击行为进行预测，从而向用户提供用户自己可能感兴趣的广告。
计算机视觉（computer vision）：计算机视觉是近些年来越来越火的课题，而计算机视觉发展迅速的原因很大程度上是得益于深度学习。其中，输入x是图片像素值，输出是图片所属的不同类别。
语音识别（speech recognition）：深度学习可以将一段语音信号辨识为相应的文字信息。
机器翻译：例如通过神经网络输入英文，然后直接输出中文。
自动驾驶：通过输入一张图片或者汽车雷达信息，神经网络通过训练来告诉你相应的路况信息并作出相应的决策。

有许多种不同类型的神经网络。比如：

CNN（卷积神经网络，Convolution Neural Network）：主要用于图像识别处理。
RNN（循环神经网络，Recurrent Neural Network）：多用于语音处理，机器翻译。
自动驾驶则需要复杂的混合神经网络。

数据类型一般分为两类：结构数据和非结构数据。

1.3 为什么深度学习会兴起？

如下图所示，横坐标 x 表示数据量（Amount of data），纵坐标 y 表示机器学习模型的性能表现（Performance）。

红线：传统机器学习算法（SVM，logistic regression, decision tree等），数据量很大时性能一般。
黄线：小规模的神经网络，数据量很大时，性能优于传统机器学习算法。
蓝线：中等规模的神经网络，数据量很大时，性能优于小规模的神经网络
绿线：大规模的神经网络，数据量很大时，性能优于中等规模的神经网络，且保持快速上升趋势。

注：当数据量不大时，性能差别不是很大。

深度学习兴起的3个因素：

大数据量：无处不在的数据
强大的计算能力：如GPU
神经网络算法的创新

举个算法改进的例子，之前神经网络神经元的激活函数是Sigmoid函数，后来改成了ReLU函数。之所以这样更改的原因是对于Sigmoid函数，在远离零点的位置，函数曲线非常平缓，其梯度趋于0，所以造成神经网络模型学习速度变得很慢。然而，ReLU函数在x大于零的区域，其梯度始终为1，尽管在x小于零的区域梯度为0，但是在实际应用中采用ReLU函数确实要比Sigmoid函数快很多。