神经网络入门1

最新推荐文章于 2024-07-15 16:56:35 发布

枸杞仙人

最新推荐文章于 2024-07-15 16:56:35 发布

阅读量352

点赞数 2

分类专栏： Python深度学习文章标签：神经网络机器学习深度学习 Keras

本文链接：https://blog.csdn.net/weixin_45801177/article/details/117654411

版权

Python深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

神经网络入门1

3.1神经网络剖析
3.2 Keras简介
- 3.2.1 Keras、TensorFlow、Theano 和 CNTK
- 3.2.2 使用Keras开发：概述

本文为《Python深度学习》第三章：神经网络入门的学习笔记。具体内容请参照原书。
本文主要介绍神经网络的核心组件，即层、网络、目标函数和优化器；还会简要介绍Keras。在神经网络入门2中将用3个例子深入讲解如何用神经网络解决实际问题。

3.1神经网络剖析

训练神经网络主要围绕以下四个方面：
1. 层，多个层组合成网络（或模型）。
2. 输入数据和相应的目标。 ‰
3. 损失函数，即用于学习的反馈信号。
4. 优化器，决定学习过程如何进行。
这四者的关系为：多个层链接在一起组成了网络，将输入数据映射为预测值。然后损失函数将这些预测值与目标进行比较，得到损失值，用于衡量网络预测值与预期结果的匹配程度。优化器使用这个损失值来更新网络的权重。

3.1.1 层：深度学习的基础组件

神经网络的基本数据结构是层。层是一个数据处理模块，将一个或多个输入张量转换为一个或多个输出张量。有些层是无状态的，但大多数的层是有状态的，即层的权重。权重是利用随机梯度下降学到的一个或多个张量，其中包含网络的知识。
不同的张量格式与不同的数据处理类型需要用到不同的层。例如，简单的向量数据保存在形状为 (samples, features) 的 2D 张量中，通常用密集连接层［densely connected layer，也叫全连接层（fully connected layer）或密集层（dense layer），对应于 Keras 的 Dense 类］来处理。序列数据保存在形状为 (samples, timesteps, features) 的 3D 张量中，通常用循环层（recurrent layer，比如 Keras 的 LSTM 层）来处理。图像数据保存在 4D 张量中，通常用二维卷积层（Keras 的 Conv2D）来处理。
例子：

from keras import layers
layer = layers.Dense(32, input_shape=(784,))

我们创建了一个层，只接受第一个维度大小为 784 的 2D 张量（第 0 轴是批量维度，其大小没有指定，因此可以任意取值）作为输入。这个层将返回一个张量，第一个维度的大小变成了 32。因此，这个层后面只能连接一个接受 32 维向量作为输入的层。
在实际操作中，我们通常不需要人为计算输入维度大小，Keras会自动反向计算出输入层的形状。例如其中第二层没有输入形状（input_shape）的参数，相反，它可以自动推导出输入形状等于上一层的输出形状。

from keras import models
from keras import layers
model = models.Sequential()
model.add(layers.Dense(32, input_shape=(784,)))
model.add(layers.Dense(32))

3.1.2 模型：层构成的网络

深度学习模型是层构成的有向无环图。最常见的例子就是层的线性堆叠，将单一输入映射为单一输出。还有双分支（two-branch）、网络多头（multihead）网络、Inception 模块。
网络的拓扑结构定义了一个假设空间（hypothesis space）。你可能还记得第 1 章里机器学习的定义：“在预先定义好的可能性空间中，利用反馈信号的指引来寻找输入数据的有用表示。”选定了网络拓扑结构，意味着将可能性空间（假设空间）限定为一系列特定的张量运算，将输入数据映射为输出数据。然后，你需要为这些张量运算的权重张量找到一组合适的值。

3.1.3 损失函数与优化器：配置学习过程的关键

一旦确定了网络架构，你还需要选择以下两个参数。

损失函数（目标函数）——在训练过程中需要将其最小化。它能够衡量当前任务是否已成功完成。
优化器——决定如何基于损失函数对网络进行更新。它执行的是随机梯度下降（SGD）的某个变体。

具有多个输出的神经网络可能具有多个损失函数（每个输出对应一个损失函数）。但是，梯度下降过程必须基于单个标量损失值。因此，对于具有多个损失函数的网络，需要将所有损失函数取平均，变为一个标量值。
对于分类、回归、序列预测等常见问题，你可以遵循一些简单的指导原则来选择正确的损失函数。例如，对于二分类问题，你可以使用二元交叉熵（binary crossentropy）损失函数；对于多分类问题，可以用分类交叉熵（categorical crossentropy）损失函数；对于回归问题，可以用均方误差（mean-squared error）损失函数；对于序列学习问题，可以用联结主义时序分类（CTC，connectionist temporal classification）损失函数，等等。只有在面对真正全新的研究问题时，你才需要自主开发目标函数。在后面几章里，我们将详细说明对于各种常见任务应选择哪种损失函数。

3.2 Keras简介

Keras 是一个 Python 深度学习框架，可以方便地定义和训练几乎所有类型的深度学习模型。
Keras 具有以下重要特性。

相同的代码可以在 CPU 或 GPU 上无缝切换运行。
具有用户友好的 API，便于快速开发深度学习模型的原型。
内置支持卷积网络（用于计算机视觉）、循环网络（用于序列处理）以及二者的任意组合。
支持任意网络架构：多输入或多输出模型、层共享、模型共享等。这也就是说，Keras能够构建任意深度学习模型，无论是生成式对抗网络还是神经图灵机。

3.2.1 Keras、TensorFlow、Theano 和 CNTK

Keras 是一个模型级（model-level）的库，为开发深度学习模型提供了高层次的构建模块。它不处理张量操作、求微分等低层次的运算。相反，它依赖于一个专门的、高度优化的张量库来完成这些运算，这个张量库就是 Keras 的后端引擎（backend engine）。目前，Keras 有三个后端实现：TensorFlow 后端、Theano 后端和微软认知工具包（CNTK，Microsoft cognitive toolkit）后端。
。Theano 由蒙特利尔大学的MILA 实验室开发，TensorFlow 由 Google 开发，CNTK 由微软开发。你用 Keras 写的每一段代码都可以在这三个后端上运行，无须任何修改。也就是说，你在开发过程中可以在两个后端之间无缝切换，这通常是很有用的。
通过 TensorFlow（或 Theano、CNTK），Keras 可以在 CPU 和 GPU 上无缝运行。在 CPU 上运行时，TensorFlow 本身封装了一个低层次的张量运算库，叫作 Eigen；在 GPU 上运行时，TensorFlow封装了一个高度优化的深度学习运算库，叫作 NVIDIA CUDA 深度神经网络库（cuDNN）。

3.2.2 使用Keras开发：概述

Keras工作流程：

定义训练数据：输入张量和目标张量。
定义层组成的网络（或模型），将输入映射到目标。
配置学习过程：选择损失函数、优化器和需要监控的指标。
调用模型的 fit 方法在训练数据上进行迭代。

定义模型有两种方法：一种是使用 Sequential 类（仅用于层的线性堆叠，这是目前最常见的网络架构），另一种是函数式 API（functional API，用于层组成的有向无环图，让你可以构建任意形式的架构）。

Sequential类：注意，我们向第一层传入了输入数据的预期形状

from keras import models
from keras import layers
model = models.Sequential()
model.add(layers.Dense(32, activation='relu', input_shape=(784,)))
model.add(layers.Dense(10, activation='softmax'))

用函数式 API：利用函数式 API，你可以操纵模型处理的数据张量，并将层应用于这个张量，就好像这些层是函数一样。

input_tensor = layers.Input(shape=(784,))
x = layers.Dense(32, activation='relu')(input_tensor)
output_tensor = layers.Dense(10, activation='softmax')(x)
model = models.Model(inputs=input_tensor, outputs=output_tensor)

一旦定义好了模型架构，使用 Sequential 模型还是函数式 API 就不重要了。接下来的步骤都是相同的。

配置学习过程是在编译这一步，你需要指定模型使用的优化器和损失函数，以及训练过程中想要监控的指标。下面是单一损失函数的例子，这也是目前最常见的。

from keras import optimizers
model.compile(optimizer=optimizers.RMSprop(lr=0.001),
 loss='mse',
 metrics=['accuracy'])

最后，学习过程就是通过 fit() 方法将输入数据的 Numpy 数组（和对应的目标数据）传入模型，这一做法与 Scikit-Learn 及其他机器学习库类似。

model.fit(input_tensor, target_tensor, batch_size=128, epochs=10)

枸杞仙人

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
神经网络入门1

神经网络入门13.1神经网络剖析3.1.1 层：深度学习的基础组件3.1.2 模型：层构成的网络3.1.3 损失函数与优化器：配置学习过程的关键3.2 Keras简介3.2.1 Keras、TensorFlow、Theano 和 CNTK3.2.2 使用Keras开发：概述本文为《Python深度学习》第三章：神经网络入门的学习笔记。具体内容请参照原书。本文主要介绍神经网络的核心组件，即层、网络、目标函数和优化器；还会简要介绍Keras。在神经网络入门2中将用3个例子深入讲解如何用神经网络解决实际问题。
复制链接

扫一扫