深度学习
文章平均质量分 93
y0k1n0
这个作者很懒,什么都没留下…
展开
-
transformer论文笔记
参考大佬文章上图描述的是batch_norm操作batch_norm上图描述的是layer_norm操作layer_norm总而言之,layer_norm的操作更符合我们机器翻译等任务的需求,因此采用layer_norm进行标准化。原创 2024-07-28 16:51:57 · 615 阅读 · 0 评论 -
ResNet论文笔记
当通道维度增加时,由于卷积的特性会使得参数以平方的数量级增加,因此为了在更深层的网络上也可以进行训练,需要对残差块进行如下调整。下面假设输入特征的通道数均为256。不难发现,在降低错误率方面C>B>A,但是由于C方案对所有的shortcut都是使用1*1卷积,由上图可知,模型可以按照自己的序求选择是否使用函数。,不划算,作者在其网络构建中使用的是B方案。,从而解决了模型深度增加带来的退化问题。,因此随着网络加深,训练逐渐变得困难。考虑一个两层的神经网络。原创 2024-07-25 18:26:27 · 1043 阅读 · 0 评论 -
detr源码解读
这段代码利用掩码的累加作为位置编码的posPEpos2isin10000dmodel2iposPEpos2i1cos10000dmodel2ipos其中,pos表示token在序列中的位置,设句子长度为 L,则pos01L−1是token的位置向量,PEpos2i表示这个位置向量里的第i个元素,2i1表示奇数维度,2i表示偶数维度;dmodel。原创 2024-07-25 15:11:04 · 646 阅读 · 0 评论