手撕源码系列
文章平均质量分 79
纸上学来终觉浅,绝知此事要躬行
Attention is all you
关于博客任何问题尽管询问,交流也可以。技术就是在碰撞中不断累计的。
展开
-
transfomer中attention为什么要除以根号d_k
得到矩阵 Q, K, V之后就可以计算出 Self-Attention 的输出了,计算的公式如下:Attention(Q,K,V)=Softmax(QKTdk)VAttention(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{d_k}})VAttention(Q,K,V)=Softmax(dkQKT)V除以维度的开方,可以将数据向0方向集中,使得经过softmax后的梯度更大.从数学上分析,可以使得QK的分布和Q/K保持一致,对于两个独立的正态分布而言,两者的加法的期望和原创 2024-06-01 16:37:47 · 1143 阅读 · 0 评论 -
从0实现->训练pytorch模型->转onnx->tensorrt模型序列化->Tensorrt推理
TensorRT模型序列化的作用主要是将训练好的深度学习模型(通常是以ONNX或其他格式保存的)转换为一个能够在TensorRT中运行的优化后的引擎(engine)。在将PyTorch的.pth模型转换为TensorRT的.plan或.trt模型之前,先将其转换为ONNX(Open Neural Network Exchange)格式的主要目的是为了实现模型在不同深度学习框架之间的互操作性和可移植性。head部分是一个单独的线性层,用于将backbone输出的特征转换为最终的预测值。原创 2024-05-19 10:30:00 · 806 阅读 · 0 评论 -
点是否在三角形内C++源码实现
思路:面积和:abc == obc+aoc+abo,应该有更简洁的方法,但是这个方法思路更简单。原创 2024-05-13 10:30:00 · 346 阅读 · 0 评论 -
点到直线距离C++源码实现
思路1(如果不记得叉乘公式的话):利用点乘:思路2:利用叉乘:定义Point结构体,Line结构体包含两个点成员,Vec结构体代表向量原创 2024-05-13 10:00:00 · 243 阅读 · 0 评论 -
目标检测中的mAP计算原理和源码实现
在目标检测任务中,mAP(mean Average Precision,平均精度均值)是一个非常重要的评价指标,用于衡量模型在多个类别上的平均性能。它综合考虑了模型在不同召回率下的精确率,能够全面反映模型在检测任务中的表现。综合性评估:mAP能够综合考虑模型在不同召回率下的精确率,避免了单一指标(如准确率或召回率)可能带来的片面性。多类别比较:对于多类别的目标检测任务,mAP可以计算每个类别的AP,然后取平均值得到全局的mAP,从而方便比较模型在不同类别上的性能。原创 2024-03-24 18:58:19 · 1048 阅读 · 0 评论 -
DeformableAttention的原理解读和源码实现
多尺度特征图尺寸记录:spatial_shapes:([[180, 180],[ 90, 90],[ 45, 45],[ 23, 23]])sampling_locations原本为采样点位置,范围为[0,1),为了适应F.grid_sample采样函数的用法,调整为[-1,1)分布,意思是,900个query在特征图(32,level_h,level_w)中各采样4个点,采样结果为900个对应的4个通道为32的像素特征.reshape为正常图像torch.Size([b*8,32,180,180]原创 2024-03-17 15:06:50 · 1860 阅读 · 0 评论 -
Vision Transfomer系列第二节---Tricks测试
这种重叠可以提高图像块之间的信息交互,可能会影响模型的性能和效果。实验可知,适当的head_num可以提高模型的拟合能力,但是不是越多越好,需要根据任务的复杂情况和embeding维度去调整.本处实验其实效果不明显,可能是任务过于简单的原因.卷积核大小是20,stride取16,padding取2,输入为224x224时,输出也为14x14,但是相邻图像块之间有2圈像素的交集.block作为transfomer类模型的核心组件,block的重复次数是一个超参数,直接影响到模型的深度和表达能力.原创 2024-02-20 14:19:00 · 1165 阅读 · 1 评论 -
Vision Transfomer系列第一节---从0到1的源码实现
vit是视觉transfomer最经典的模型,复现一次代码十分有必要,中间会产生很多思考和问题.后面章节将会更有价值,我将会:1.利用本次的代码进行很多思考和trick的验证2.总结本次代码的BUG们,及其产生的原理和解决方法如需获取全套代码请参考。原创 2024-02-04 20:51:56 · 971 阅读 · 0 评论 -
Note-归一化层和前向源码
深度学习中常见的归一化层包括批量归一化(Batch Normalization)、层归一化(Layer Normalization)、实例归一化(Instance Normalization)、组归一化(Group Normalization)。批量归一化(Batch Normalization):BN专注于标准化任何特定层的输入(即来自先前层的激活)。标准化输入意味着网络中任何层的输入应具有大约为零的均值和单位方差。原创 2024-01-29 22:57:44 · 929 阅读 · 0 评论 -
iou的cpu和gpu源码实现
IoU(Intersection over Union)是一种测量在特定数据集中检测相应物体准确度的一个标准,通常用于目标检测中预测框(bounding box)之间准确度的一个度量(预测框和实际目标框)。IoU计算的是“预测的边框”和“真实的边框”的交叠率,即它们的交集和并集的比值。最理想情况是完全重叠,即比值为1。IoU的计算方法如下:计算两个框的交集面积,即两个框的左、上、右、下四个点的交集。计算两个框的并集面积,即两个框的左、上、右、下四个点的并集。原创 2024-01-23 23:44:14 · 555 阅读 · 0 评论 -
源码实现简介
总的来说,深度学习在自动驾驶感知中发挥着重要的作用,为自动驾驶技术的发展带来了巨大的潜力。相信在未来的研究和实践中,这些问题将得到有效的解决,推动自动驾驶技术的进一步发展和应用。其次,深度学习具有很强的鲁棒性,能够处理各种复杂的驾驶环境,如不同的光照条件、遮挡、动态目标等。现成的库和框架固然强大且方便使用,但很多时候,如果我们不清楚其背后的工作机制,往往会限制我们的技术视野和创新能力。无论是为了提高自己的技术能力、增强对技术的深入理解,还是为了在工作中提高核心竞争力,自己动手实现都是一个极好的途径。原创 2024-01-23 23:41:32 · 562 阅读 · 0 评论 -
transfomer中正余弦位置编码的源码实现
Transformer模型抛弃了RNN、CNN作为序列学习的基本模型。循环神经网络本身就是一种顺序结构,天生就包含了词在序列中的位置信息。当抛弃循环神经网络结构,完全采用Attention取而代之,这些词序信息就会丢失,模型就没有办法知道每个词在句子中的相对和绝对的位置信息。因此,有必要把词序信号加到词向量上帮助模型学习这些信息,位置编码(Positional Encoding)就是用来解决这种问题的方法。关于位置编码更多介绍参考的。原创 2024-01-17 10:00:00 · 522 阅读 · 0 评论 -
transfomer中Decoder和Encoder的base_layer的源码实现
Encoder和Decoder共同组成transfomer,分别对应图中左右浅绿色框内的部分.Encoder:目的:将输入的特征图转换为一系列自注意力的输出。工作原理:首先,通过卷积神经网络(CNN)提取输入图像的特征。然后,这些特征通过一系列自注意力的变换层进行处理,每个变换层都会将特征映射进行编码并产生一个新的特征映射。这个过程旨在捕捉图像中的空间和通道依赖关系。作用:通过处理输入特征,提取图像特征并进行自注意力操作,为后续的目标检测任务提供必要的特征信息。原创 2024-01-16 00:30:04 · 1193 阅读 · 1 评论 -
transfomer中Multi-Head Attention的源码实现
Multi-Head Attention是一种注意力机制,是transfomer的核心机制.Multi-Head Attention的原理是通过将模型分为多个头,形成多个子空间,让模型关注不同方面的信息。每个头独立进行注意力运算,得到一个注意力权重矩阵。输出的结果再通过线性变换和拼接操作组合在一起。这样可以提高模型的表示能力和泛化性能。在Multi-Head Attention中,每个头的权重矩阵是随机初始化生成的,并在训练过程中通过梯度下降等优化算法进行更新。原创 2024-01-14 11:34:14 · 678 阅读 · 1 评论