自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 详解常用的对比学习损失

对比学习损失函数用于在无监督或半监督的情况下学习数据表示,使得相似的数据样本在表示空间中更加接近,而不相似的样本更远离。

2024-07-11 10:30:00 1868

原创 在损失中引入对比学习的监督,提高模型收敛速度

训练过程中,将监督学习的交叉熵损失和对比损失加权结合起来(通过`alpha`参数),然后进行反向传播和优化。1. 定义对比学习损失:常用的对比学习损失函数包括对比损失(Contrastive Loss)和信息论对比损失(InfoNCE)。在深度学习中,结合对比学习(contrastive learning)与监督学习可以提高模型的收敛速度和性能。2. 设计结合损失:将对比学习损失与任务的监督学习损失结合起来,例如交叉熵损失。3. 实现结合损失:在训练过程中计算两种损失,并使用加权求和的损失进行反向传播。

2024-07-10 10:47:08 379

原创 给论文增光添彩——常用局部自注意力方法总结

局部自注意力(Local Self-Attention)是一种在神经网络中用于捕捉输入数据局部区域内依赖关系的方法,特别在处理具有局部特征的重要性的任务(如图像处理和点云处理)中具有广泛应用。

2024-07-09 09:34:08 697

原创 对于点云处理的局部自注意力方法总结

在点云处理中,局部自注意力方法能够有效捕捉点云的局部几何特征。

2024-07-09 09:29:14 408

原创 区分标量注意力和向量注意力

标量注意力是一种传统的注意力机制,其中每个注意力权重是一个标量值。它通过计算查询(query)和键(key)之间的相似性来生成注意力权重,这些权重然后应用于值(value)以生成加权和。向量注意力是一种更复杂的注意力机制,其中每个注意力权重是一个向量,而不是一个标量。它允许在更细粒度的水平上对不同的维度进行加权,从而捕捉到更多的信息。

2024-07-08 17:03:35 660

原创 模型训练数据集大小、批量大小(batch size)、epoch(训练周期)和迭代次数(iteration)的关系

1. 迭代次数与 epoch 的关系:一个 epoch 中包含的迭代次数 \( I \) 可以通过以下公式计算得出:\[ I = \frac{N}{B} \]其中,\( N \) 是数据集的大小,\( B \) 是批量大小。这表示在一个 epoch 中,需要 \( N/B \) 个 batch 才能处理完整个数据集。2. 总的迭代次数:在训练过程中,总的迭代次数可以通过以下公式计算:\[ Total\ Iterations = E \times I \]

2024-07-03 11:39:57 1750

原创 对处理点云的Transformer的位置编码改进方法:法向量编码、局部坐标系编码、球面坐标编码、高斯权重编码、多尺度几何编码

假设有 \( S \) 个尺度,每个尺度对应的邻域大小为 \( r_s \),则在第 \( s \) 个尺度上,点 \( p_i \) 的邻域为 \( \mathcal{N}_s(p_i) \),在该邻域上计算几何特征 \( g_s(p_i) \)。局部坐标系编码通过定义每个点的局部坐标系,并在该坐标系下表示邻域内的点,以捕捉局部几何关系。(2)计算协方差矩阵的特征值和特征向量,最小特征值对应的特征向量即为法向量 \( n_i \)。其中,\(\bar{p_i}\) 是邻域点的均值。

2024-06-28 10:30:00 737

原创 Transformer细节(十)——如何在Transformer中设计自适应归一化层adaLN

使用子网络或简单的全连接层生成自适应的\(\gamma\)和\(\beta\)参数。利用这些参数进行标准的层归一化操作。nn.ReLU(),nn.ReLU(),自适应层归一化(adaLN)通过自适应地生成归一化参数,可以使Transformer模型更好地适应不同的任务和数据分布。通过在Transformer模型中的关键位置(如自注意力机制之后和前馈网络之后)使用自适应层归一化,可以提高模型的性能和稳定性。这种方法在处理复杂任务和变化多端的数据时,具有显著的优势。

2024-06-27 10:30:00 661

原创 区分不同的归一化方法,批归一化、层归一化、实例归一化、组归一化

不同的归一化方法适用于不同的应用场景和模型结构。Batch Normalization适用于大规模批量训练的CNN,Layer Normalization适用于RNN和小批量训练,Instance Normalization常用于风格迁移任务,而Group Normalization则提供了一种在各种任务中对小批量数据也能稳定有效的归一化方法。在实际应用中,选择适合的归一化方法可以显著提高模型的性能和训练效率。

2024-06-27 10:30:00 1330

原创 详解自适应层归一化adaLN

自适应层归一化(adaLN)是对传统层归一化的改进,通过引入自适应的归一化参数生成机制,使模型能够更灵活地适应不同任务和数据分布,提高模型的性能和稳定性。这种方法在处理复杂任务和变化多端的数据时,具有显著的优势。

2024-06-26 15:57:34 1263

原创 Transformer细节(九)——Transformer位置编码

总之,位置编码在Transformer模型中起到了引入序列位置信息的关键作用,确保模型在处理序列数据时能够正确理解和利用位置信息。3. 可扩展性:由于位置编码是通过数学函数计算出来的,因此可以扩展到任意长度的序列,而不需要预定义所有可能的序列长度。这些函数确保了不同位置的编码是唯一的,同时不同位置之间的距离也通过这些编码被保留和反映出来。2. 平滑性:相近位置的编码在高维空间中也是相近的,这有助于模型捕捉局部信息。1.唯一性:每个位置的编码都是唯一的,不同位置的编码不会相同。\( i \) 是维度索引。

2024-06-24 10:30:00 345

原创 Transformer细节(九)——Transformer对比CNN/RNN引入位置编码的原因

CNN通过卷积操作的局部感受野和权重共享机制捕捉到序列中的局部模式和顺序信息。RNN通过隐状态的时间步传递机制显式地保留和利用序列的顺序信息。Transformer由于使用全局的自注意力机制,需要通过位置编码显式地引入序列的位置信息。这些特性使得CNN和RNN在处理序列数据时天然地具备顺序感知能力,而Transformer则通过位置编码来达到类似的效果。

2024-06-24 10:30:00 330

原创 Transformer细节(九)——Transformer位置编码的改进

相对位置编码:更适合捕捉元素之间的相对关系,有助于处理长距离依赖和泛化到不同长度的序列。混合位置编码:结合绝对位置编码和相对位置编码的优点,提供丰富的位置信息,适用于需要同时捕捉全局和局部位置信息的任务。这两种编码方式的结合和应用,可以显著提高Transformer模型在处理复杂序列任务中的性能。

2024-06-24 10:30:00 1282

原创 Transformer细节(八)——掩码的原理简述及代码实现

在解码器的自注意力层中使用未来遮挡掩码是为了确保每个位置的输出只能依赖于当前及之前的位置,从而保证生成过程的因果性。这种设计不仅确保了模型训练时的一致性,还使得模型在推理时能够正确地逐步生成输出序列。通过掩码机制,可以有效地防止解码器看到未来的元素,从而实现自回归的生成过程。

2024-06-23 11:00:00 1169

原创 Transformer细节(七)——Transformer输入序列的维度变化

如果 \(d_{\text{embedding}}\) 和 \(d_{\text{model}}\) 不同,可以使用一个线性变换层将嵌入向量映射到所需的模型维度 \(d_{\text{model}}\)。例如,形状为 \((N, L,d_{\text{in}})\) 的输入张量,其中 \(N\) 是 batch size,\(L\) 是序列长度,\(d_{\text{in}}\) 是序列元素的维度。这将输入序列转换为形状为 \((N, L, d_{\text{embedding}})\) 的张量。

2024-06-23 10:45:00 951

原创 Transformer细节(六)——详解Transformer各层结构和组成及代码实现

这种架构设计使得 Transformer 模型可以高效并行地处理序列数据,并且能够捕获序列中的长距离依赖关系。具体如何并行处理数据,参考我之前的博客Transformer细节(三)——Transformer是并行or顺序处理数据?-CSDN博客。

2024-06-23 09:55:51 1746

原创 Transformer细节(五)——详解Transformer解码器的自注意力层和编码器-解码器注意力层数据处理机制

在训练阶段,解码器的自注意力层和编码器-解码器注意力层可以并行处理目标序列的所有时间步,因为使用了教师强制技术,目标序列的前缀是已知的。具体来说,自注意力和编码器-解码器注意力的计算都可以通过矩阵运算在所有时间步上并行完成。这种并行处理使得Transformer模型在训练时效率非常高,能够快速处理长序列数据。

2024-06-22 11:36:48 959

原创 Transformer细节(四)——详解Transformer解码器的数据处理是并行or顺序

在训练阶段,Transformer的解码器利用教师强制方法进行并行计算,因为所有目标序列的真实值都是已知的。而在推理阶段,由于需要逐步生成序列,解码器采用顺序计算方法。这种设计使得模型在训练时具有高效的并行处理能力,而在推理时能够逐步生成准确的输出序列。

2024-06-22 11:20:21 453

原创 Transformer细节(三)——Transformer是并行or顺序处理数据?

Transformer模型通过自注意力机制和前馈神经网络层,实现了编码器和解码器内部的并行计算,这使得模型在处理长序列时具有显著的计算效率。

2024-06-22 11:09:24 687

原创 Transformer细节(二)——详解Transformer训练和推理阶段的输入输出

源序列 \( X \)目标序列前缀 \( Y_{\text{in}} \)

2024-06-22 10:37:06 535

原创 Transformer细节(一)——掩码机制

掩码机制通过在注意力计算中应用上三角矩阵,防止解码器在计算自注意力时看到未来的词,保持了序列生成的因果关系。尽管掩码机制确保了这一点,但整个自注意力计算过程仍然是并行进行的。这种设计允许解码器在训练阶段高效地处理长序列数据,同时保持正确的序列生成顺序。

2024-06-22 10:25:10 1246

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除