神经网络与深度学习
神经网络与深度学习笔记
CarmenHu
这个作者很懒,什么都没留下…
展开
-
《神经网络与深度学习》第二章学习笔记
丑小鸭定理:丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大。奥卡姆剃刀原理:如无必要,勿增实体。原创 2024-01-09 13:58:48 · 393 阅读 · 0 评论 -
《神经网络与深度学习》第四章学习笔记
1、a=f(z),f为激活函数,f连续并可导(允许少数点上不可导)的非线性函数。激活函数的导函数的值域要在一个合适的区间内,不能太小也不能太大,否则会影响训练的效率和稳定性。1、矩阵微积分是多元微积分的一种表达方式,即使用矩阵和向量来表示因变量每个成分关于自变量每个成分的偏导数。因此考虑三方面:神经元的激活规则,网络的拓朴结构,学习算法。4、神经网络可以作为一个“万能”函数来使用,可以用来进行复杂的特征转换,或逼近一个复杂的条件分布。损失函数关于w的偏导数,损失函数关于b的偏导数。4、深度学习的三个步骤。原创 2024-01-09 21:03:45 · 460 阅读 · 0 评论 -
《神经网络与深度学习》第七章学习笔记
平坦最小值:一个平坦最小值的领域内,所有点对应的训练损失都比较接近。1、网络优化的难点:结构差异大,没有通用的优化算法,超参数多。修改网络结构来得到更好的优化地形:好的优化地形通常比较平滑;更有效的优化算法来提高优化方法的效率和稳定性:动态学习率调整;批量大小不影响随机梯度的期望,但会影响随机梯度的方差。更好的参数初始化方法、数据预处理方法来提高优化效率。2、干扰优化过程:早停法、暂退法、权重衰减、SGD。优化地形的可视化:在高维空间中损失函数的曲面形状。1、所有损害优化的方法都是正则化。原创 2024-01-12 19:51:02 · 413 阅读 · 1 评论 -
《神经网络与深度学习》第三章学习笔记
在支持向量机的优化问题中,如果训练集中的样本不是线性可分的,就无法找到最优解。线性模型:Logistic回归、Softmax回归、感知器、支持向量机;区别就是所用的损失函数不一样,所以训练出来的模型不一样。熵编码:在对分布p(y)的符号进行编码时,熵H(p)也是理论上最优的平均编码长度,这种编码方式称为熵编码。熵越高,则随机变量的信息越多;熵越低,则随机变量的信息越少。1、多分类问题,可以转为多个二分类问题。1、间隔:决策边界到分类样本的最短距离。熵:随机变量X的自信息的数学期望。分布越均衡,熵越大。原创 2024-01-09 18:15:22 · 339 阅读 · 0 评论 -
《神经网络与深度学习》第一章学习笔记
表示学习:通过深度模型学习高层语义特征(难点:没有明确目标)特征提取:基于任务或先验对去除无用特征。二、机器学习≈构建一个映射函数=规则。三、如何开发一个人工智能系统。四、特征提取VS表示学习。原创 2024-01-07 11:06:01 · 371 阅读 · 1 评论 -
《神经网络与深度学习》第五章学习笔记
卷积层虽然可以显著减少连接的个数,但是每一个特征映射的神经元个数并没有显著减少。残差网络是通过给非线性的卷积层增加直连边的方式来提高信息的传播效率。计算卷积需要进行卷积核翻转。卷积操作的目标:提取特征。1、卷积经常用在信号处理中,用于计算信号的延迟累积。通过给卷积核插入“空洞”来变相地增加其大小。1、Ngram特征与卷积。2、转置卷积/微步卷积。5.4、典型的卷积网络。5.5、卷积网络的应用。5.6、应用到文本数据。2、文本序列的卷积模型。5.2、卷积神经网络。2、卷积层的映射关系。5.3、其他卷积种类。原创 2024-01-10 16:20:27 · 406 阅读 · 1 评论 -
《神经网络与深度学习》第八章学习笔记
当使用神经网络来处理一个变长的向量序列时,我们通常可以使用卷积网络或循环网络来进行编码来得到一个相同长度的输出向量序列。1、大脑中的信息超载问题:人脑每个时刻接收的外界输入信息非常多,包括来源于视觉、听觉、触觉的各种各样的信息。神经图灵机:把图灵机的每个部件用神经网络来替代,从而使得整个图灵机的架构是可微分的。既然联想记忆具有存储和检索功能,我们可以利用联想记忆来增加网络容量。记忆过程:工作记忆(短期记忆),情景记忆,结构记忆(长期记忆)和结构化的外部记忆相比,联想记忆具有更好的生物学解释性。原创 2024-01-14 19:20:46 · 350 阅读 · 1 评论 -
《神经网络与深度学习》第六章学习笔记
图灵完备是指一种数据操作规则,比如一种计算机编程语言,可以实现图灵机的所有功能,解决所有的可计算问题。在实际应用中,很多数据是图结构的,比如知识图谱、社交网络、分子网络等。长程依赖问题:由于梯度爆炸或消失问题,实际上只能学习到短周期的依赖关系。假设每次输入都是独立的,也就是说每次网络的输出只依赖与当前的输入。信息抽取,从无结构的文本中抽取结构化的信息,形成知识。语音识别,输入一段语音,送到RNN,输出一段文字。建立一个额外的延时单元,用来存储网络的历史信息。1、序列到类别:输入是序列,输出是类别。原创 2024-01-11 17:17:32 · 384 阅读 · 0 评论