图像分类神经网络
图像分类神经网络学习笔记
CarmenHu
这个作者很懒,什么都没留下…
展开
-
Transformer学习笔记(二)
从多头注意力的结构图种,貌似这个所谓的多个头就是指多组线性变换层,其实并不是,只有使用了一组线性变化层,即三个变换张量对QKV分别进行线性变换,这些变换不会改变原有张量的尺寸,因此每个变换矩阵都是方阵,得到输出结果后,多头的作用才开始显现,每个头开始从词义层面分割输出的张量,也就是每个头都想获得一组QKV进行注意力机制的计算,但是句子中的每个词的表示只获得一部分,也就是只分割了最后一维的词嵌入向量,这就是所谓的多头,将每个头的获得的输入送到注意力机制中,就形成多头注意力机制。原创 2024-03-16 22:14:31 · 818 阅读 · 0 评论 -
ViT学习笔记
拼接[class]token: Cat([1, 768], [196, 768]) -> [197, 768];叠加Position Embedding: [197, 768]在代码实现中,直接通过一个卷积层来实现以ViT- B/16为例,使用卷积核大小为。在输入Transformer Encoder。但是迁移到ImageNet1K。上或者你自己的数据上时,只有一个 Linear。二、Transformer Encoder层。一、Embedding层。, 卷积核个数为768。前 有个Dropout。原创 2024-03-15 20:50:39 · 332 阅读 · 0 评论 -
Swin—Transformer学习笔记
bias才是Attention中B的数值,我们训练的是bias table中的参数。二、Patch Merging。六、模型详细配置参数。原创 2024-03-16 12:45:48 · 331 阅读 · 0 评论 -
ResNeXt学习笔记
注意:对于block层数小于3的,没有太大作用。二、将block中的卷积层分组。一、更新了block。原创 2024-03-14 11:02:07 · 264 阅读 · 0 评论 -
Transformer学习笔记(一)
对于一个具有少量数据的任务 A,首先通过一个现有的大量数据搭建一个 CNN 模型 A,由于 CNN的浅层学到的特征通用性特别强,因此在搭建一个 CNN 模型 B,其中模型 B 的浅层参数使用模型 A 的浅层参数,模型 B 的高层参数随机初始化,然后通过冻结或微调的方式利用任务 A 的数据训练模型 B,模型 B 就是对应任务 A 的模型。每个编码器的深度都是两层 LSTM 叠加。只不过 Q的内容也是网络参数,需要学习获得,训练刚开始用随机值初始化矩阵 Q,当这个网络训练好之后,矩阵 Q 的内容被正确赋值,原创 2024-03-13 21:29:56 · 1362 阅读 · 0 评论 -
AlexNet学习笔记
随机失活神经元操作,以减少过拟合。)在全连接层的前两层中使用了。激活函数,而不是传统的。原创 2024-03-12 16:32:33 · 100 阅读 · 0 评论 -
ResNet学习笔记
(3)使用Batch Normalization加速训练(丢弃dropout)option B 可以使实线部分的输入矩阵和输出矩阵shape不同。三、Batch Normalization。(1)超深的网络结构(突破1000层)(2)提出residual模块。,即层数深效果反而不好。原创 2024-03-14 10:29:54 · 218 阅读 · 0 评论