- 博客(7)
- 收藏
- 关注
原创 Datawhale X 李宏毅苹果书 AI夏令营Task3笔记
批量归一化(Batch Normalization),通常缩写为BN,是一种在训练深度神经网络时用于提高训练速度、稳定性和性能的技术。它通过规范化(归一化)层的输入来减少内部协变量偏移,从而使得网络的每一层都输入到一个相对稳定的环境中。批量归一化的核心思想是通过对神经网络中的输入进行归一化处理,从而稳定这些输入的分布,减少训练过程中输入分布的变化。这种方法不仅有助于加速训练,还能够提高模型的泛化能力和稳定性。通过引入可学习的缩放和平移参数,批量归一化保持了网络的表达能力,允许模型学习到有用的特征表示。
2024-09-03 18:58:05 1051
原创 Datawhale X 李宏毅苹果书 AI夏令营Task2笔记
在下图中的误差表面中,如果考虑横轴方向,绿色箭头处坡度比较陡峭,需要较小的学习率,但是走到红色箭头处,坡度变得平坦了起来,需要较大的学习率。凸的误差表面的等高线是椭圆形的,椭圆的长轴非常长,短轴相比之下比较短,其在横轴的方向梯度非常小,坡度的变化非常小,非常平坦;回归问题输出的是连续的数值,分类问题输出的是有限的、离散的类别标签。很多时候训练陷入瓶颈,损失不再下降,不是因为陷入了局部最小值,大部分情况下是在局部最小值附近震荡(学习率太大),这个时候应该通过降低学习率的方式,从而能够继续往最小值方向下降。
2024-08-31 20:56:32 717
原创 Datawhale X 李宏毅苹果书AI夏令营 Task1 局部极小值与鞍点
低维度空间中的局部极小值,在更高维的空间中可能是鞍点。如下图所示,最小值比例最大也不过处于 0.5 ~ 0.6 的范围,代表只有约一半的特征值为正,另一半的特征值为负,代表在所有的维度里面有约一半的路可以让损失上升,还有约一半的路可以让损失下降。局部最小值就经过泰勒展开后的损失函数第二项中的H 矩阵的特征值全部大于/小于零,而鞍点则是H矩阵的特征值中即有大于零的,也有小于零的。在实际的过程中,我们输入到模型中的数据特征是非常多的,所以我们通常遇到的是鞍点,而不是临界点(极大值/极小值)。
2024-08-27 20:24:55 672
原创 Datawhale-AI夏令营 Task3:基于Transformer解决机器翻译任务
基于循环或卷积神经网络的序列到序列建模方法是现存机器翻译任务中的经典方法。然而,它们在建模文本长程依赖方面都存在一定的局限性。对于卷积神经网络来说,受限的上下文窗口在建模长文本方面天然地存在不足。如果要对长距离依赖进行描述,需要多层卷积操作,而且不同层之间信息传递也可能有损失,这些都限制了模型的能力。而对于循环神经网络来说,上下文的语义依赖是通过维护循环单元中的隐状态实现的。在编码过程中,每一个时间步的输入建模都涉及到对隐藏状态的修改。
2024-07-20 23:36:39 1459
原创 【Datawhale】 Task2:从baseline代码详解入门深度学习
该方法使得机器翻译系统的评价变得自动、快速、便捷,而且评价过程可以重复。正是由于 BLEU 等自动评价方法的提出,机器翻译研究人员可以在更短的时间内得到译文质量的评价结果,加速系统研发的进程。传统观点把翻译分为。
2024-07-17 21:57:07 1779
原创 卷积神经网络
(图片来源:https://www.bilibili.com/video/BV1AJ411Q72b/?vd_source=080c58ed744f7682e4eb0e56a511ad78【子豪兄】深度学习之卷积神经网络)上图为卷积神经网络的基本架构,简单来说,卷积神经网络分为卷积层、降or下采样层(池化层),再来一层卷积层,再来一层池化层,接着全连接层将之前卷积层和池化层得到的图像的底层的特征和信息进行汇总,最后进行输出。卷积层用来提取图像的底层特征;池化层用来防止过拟合,并且减少数据维度;全连接层。
2023-04-14 13:04:59 395 1
原创 实现mnist手写数字识别
卷积层用来提取图像的底层特征;池化层用来防止过拟合,并且减少数据维度;全连接层用来汇总之前卷积层和池化层得到的图像的底层的特征和信息,最后进行输出。
2023-02-10 15:29:39 2355 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人