Datawhale X 李宏毅苹果书AI夏令营 Task 3 学习笔记

《深度学习详解》笔记 - 3.7 批量归一化

摘要

批量归一化(Batch Normalization,BN)是一种重要的深度学习技术,用于改善网络训练过程中的收敛性和稳定性。它通过在网络的每一层中对输入数据进行归一化,减小梯度的波动性,使得模型训练更加高效和稳定。该技术广泛应用于各种神经网络架构中,尤其是深度网络。

批量归一化的原理

批量归一化通过在每一层神经网络的输入上进行归一化处理,使得输入数据的均值为0,方差为1。这种归一化操作能使网络在训练过程中,避免某些神经元的输出过大或过小,从而提高梯度下降的稳定性。

训练与测试中的批量归一化

在训练过程中,批量归一化是通过计算小批量数据的均值和方差进行归一化的。而在测试过程中,由于无法获得小批量数据的均值和方差,通常使用训练时的移动平均值来进行归一化处理。

批量归一化的优势
  1. 加速收敛:批量归一化通过减小梯度的波动性,能够加快模型的收敛速度,使得训练过程更加迅速。
  2. 减少过拟合:通过批量归一化,可以在一定程度上减少模型的过拟合现象,从而提高模型的泛化能力。
  3. 提高学习率:由于批量归一化使得梯度更加稳定,允许使用更高的学习率,从而进一步加快训练过程。
内部协变量偏移的解释

批量归一化提出了“内部协变量偏移”的概念,认为每一层网络的输入分布变化会影响网络的训练效果。通过批量归一化,能够保持每一层输入的稳定性,从而改善训练效果。然而,内部协变量偏移并非批量归一化改善训练效果的唯一原因,误差表面变得平滑也是一个重要因素。

《深度学习详解》笔记 - 4.1-4.4 卷积神经网络

摘要

卷积神经网络(CNN)是一种经典且强大的网络架构,主要用于图像处理任务,如图像分类。通过局部连接和参数共享的设计,CNN能够有效地检测图像中的重要特征,同时减少计算量和参数数量。

检测模式不需要整张图像

卷积神经网络中的每个神经元不需要查看整张图像即可检测出关键模式。神经元通过感受野,仅关注图像的一部分,从而有效地识别出局部特征。这种设计极大地降低了计算复杂度。

解决方案:感受野

感受野是卷积神经网络中神经元所覆盖的图像区域。通过设定感受野的大小,神经元仅处理其感受野内的信息。这种局部处理的方式,使得网络能够更有效地检测图像中的局部特征,并减少了参数的数量。

同样的模式可能会出现在图像的不同区域

图像中的相同模式可能会出现在不同的位置,例如,鸟的嘴巴可能出现在图像的左上角或中间。因此,网络需要在不同的感受野中检测相同的模式。

解决方案:共享参数

在卷积神经网络中,多个感受野可以共享一组参数,即滤波器。这种共享参数的策略不仅减少了网络中的参数数量,也提高了网络的泛化能力。共享参数意味着在不同位置检测相同模式的神经元使用相同的权重,从而降低了计算负担。

总结

卷积神经网络通过感受野和参数共享的策略,大大简化了模型的复杂度。这不仅使得网络在计算上更加高效,同时也提高了模型的鲁棒性。感受野的局部处理和参数共享的策略,使得卷积神经网络能够更有效地处理大规模图像数据。

《深度学习详解》笔记 - 4.5-4.8 卷积神经网络

摘要

卷积神经网络(CNN)是深度学习中广泛应用的架构,尤其在图像处理和分类任务中。通过感受野、参数共享和汇聚等技术,卷积神经网络能够有效地提取图像中的特征,并在应用于其他领域时表现出色。本节详细介绍了卷积神经网络的结构设计和实际应用。

汇聚

汇聚(Pooling)是一种常用于卷积神经网络中的操作,用于降低特征图的维度,减少计算量。最大汇聚(Max Pooling)是最常用的一种汇聚方式,它在每个局部区域内选取最大的值作为代表。这种操作可以降低数据的维度,但保留了最显著的特征。汇聚常与卷积层交替使用,以逐步缩小图像的尺寸,提高模型的计算效率。

卷积神经网络的应用

卷积神经网络不仅用于图像识别,还在围棋等复杂任务中得到了成功应用。例如,AlphaGo利用卷积神经网络处理围棋棋盘,将棋盘视为19×19的图像,通过卷积层提取特征,并使用分类器预测下一步最佳落子位置。

卷积神经网络的局限性

尽管卷积神经网络在很多任务中表现优异,但它对图像的放大、缩小和旋转不具备鲁棒性。这意味着,如果输入图像的大小或角度发生变化,网络的性能可能会显著下降。因此,在实际应用中,通常需要对数据进行增强,例如通过不同的旋转和缩放来训练网络,以提高其泛化能力。

《深度学习详解》笔记 - 6.1-6.2 自注意力机制的原理

摘要

自注意力机制(Self-Attention Mechanism)是深度学习模型中的一种重要架构,广泛应用于自然语言处理和其他序列数据的任务中。通过对输入序列中每个元素与其他元素的关联性进行计算,自注意力机制能够有效地捕捉全局信息,提高模型对复杂输入的理解能力。

输入与输出的类型

自注意力机制处理的输入通常是一组向量序列,模型的输出可以根据任务的不同而有所变化。常见的类型包括:

  • 输入与输出数量相同 - 适用于序列标注任务,如词性标注。
  • 输入是一个序列,输出是一个标签 - 适用于情感分析等任务。
  • 序列到序列 - 适用于机器翻译、语音识别等需要将输入序列映射到不同长度输出序列的任务。
自注意力的运作原理

自注意力机制的核心在于对输入序列中的每个向量计算其与其他向量的关联性(即注意力分数)。通过对这些分数进行加权求和,模型能够输出每个向量在全局上下文中的新表示。这一机制使得模型能够捕捉序列中远距离的依赖关系,而无需局限于固定的窗口大小。

多头注意力机制

多头自注意力机制(Multi-Head Self-Attention)是自注意力的扩展版本,通过引入多个独立的注意力头,模型能够捕捉输入序列中不同层次或类型的关联信息。每个注意力头独立计算注意力分数,最后将各头的结果拼接并投影到输出空间,从而增强模型的表示能力。

自注意力模型的优势

自注意力机制相比传统的卷积神经网络和循环神经网络,能够更有效地处理序列数据,尤其在处理长距离依赖和捕捉全局信息时表现出色。自注意力模型可以并行计算,显著提高了模型的训练速度,同时在很多任务中表现出优异的效果,如Transformer在机器翻译中的应用。

《深度学习详解》笔记 - 19.1-19.4 ChatGPT

摘要

本章节介绍了ChatGPT,这一在自然语言处理领域广受关注的深度学习模型。ChatGPT通过预训练和强化学习相结合的方法,实现了与人类的多轮对话,并展现出强大的语言生成能力。课本详细解释了ChatGPT的工作原理、常见误解,以及预训练在模型中的关键作用,并探讨了ChatGPT带来的新研究问题。

ChatGPT 的简介和功能

ChatGPT 是由OpenAI开发的一个语言模型,于2022年公开。它能够与用户进行多轮对话,生成的回答每次都有所不同。ChatGPT的强大之处在于它能理解上下文并根据用户的需求提供连贯的回答,这使得它在各类对话任务中表现出色。

对于 ChatGPT 的误解

有两种常见的误解:

  • 罐头信息误解:有人认为ChatGPT的回答是预先准备好的固定信息,但实际上,ChatGPT是通过生成模型实时生成回答的,因此每次回答会有所不同。
  • 网络搜索误解:另一些人误认为ChatGPT的回答来源于网络搜索,但实际上,ChatGPT并不依赖于实时网络搜索,而是基于预训练阶段学习的大量文本数据进行生成。
预训练

ChatGPT的核心技术是预训练和强化学习。预训练阶段,模型通过大规模的文本数据学习语言模式,形成基础的语言能力。然后,通过人类提供的监督数据进行微调,并最终通过强化学习进一步优化模型的生成能力。这个过程确保了ChatGPT在面对不同的任务时能够生成高质量的输出。

ChatGPT 带来的研究问题

ChatGPT 的出现不仅改变了自然语言处理领域,还引发了新的研究方向:

  • 如何精准提出需求(Prompt Engineering):为了使ChatGPT生成更符合预期的回答,研究者需要探索如何设计有效的提示词。
  • 如何更正模型输出错误:探索如何在不影响其他正确输出的情况下修正模型的错误回答。
  • 如何判断 AI 生成内容:发展方法以区分人类和AI生成的文本,这对内容审核和版权保护具有重要意义。
  • 如何避免机密信息泄露:确保模型在处理敏感信息时能够保护隐私,避免泄露不该生成的内容。
  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值