Unsunshine_Bigboy_?-CSDN博客

原创 3D目标检测数据集及评价指标

一个前视双目数据集，附有雷达数据，主要用于单目3D目标检测模型。数据集根据遮挡将目标分为三档，分别是未遮挡Easy，半遮挡Mod.，和大部分遮挡Hard，一般模型检测指标都是根据这三类标签分别计算mAP。mAP计算流程：①根据一张图片中某一类的预测框的置信度由大到小进行排序；②对每个预测框和GT计算IOU，只有大于阈值的会保留，如果GT对应多个预测框，只取IOU最大的那个，其余的作为FP，最后每个GT最多只对应一个预测框作为TP；

2024-12-17 10:35:22 1158

原创 BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Representation论文总结

数据的点融合方法存在问题：①从LIDAR到CAMERA，将雷达点云投影到各个相机图片上，通过得到稀疏的深度信息从而实现3D检测，然而3D空间中的相邻的两个像素深度可能差距很大，由于相机畸变等原因导致不利于物体几何信息检测。②从CAMERA到LIDAR，将相机像素映射到雷达坐标系下，实现3D检测。由于相机信息密度高，最多只有5%的信息能够和雷达进行结合，失去相机本身的语义信息导致不利于3D目标检测。

2024-12-10 11:14:51 451

原创 MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection论文解读

要解决什么问题，首先，这是一个单目基于DETR的3D检测框架，与其他单目检测框架不同的点在于：①由于是基于DETR的检测框架，不需要多余的NMS后处理操作；②前面的单目3D检测一般是用2D的思想，首先通过2D特征预测物体在图片上的中心点，然后通过聚合中心点周围的特征再预测出3D目标的参数，这样的效果有限；其次另外一种思想是通过对图片深度的预测，通过深度+相机矩阵得到每个像素点3D坐标，然后在3D空间下进行3D物体检测，计算量大。

2024-12-07 12:02:11 692

原创 BevformerV2论文阅读笔记

直入正题，首先，要明白。主要就是带着这三个问题对论文进行阅读探究，前一篇我已经写过了关于Bevformerv1的模块分析，感兴趣也可以去看看。

2024-11-26 14:45:30 1018 1

原创 BEVformer论文模块解读

这部分注意力机制的作用是结合历史BEV特征特征，从而加入时序信息。具体来讲，一般来讲输入的参数为序列长度为3，意思是当前帧为第三帧，我们得计算前两帧的历史BEV和当前帧的BEV queries的attention。这里注意一点第一帧是没有历史帧的，所以第一帧和自身做自注意力计算。上图就是大致的计算过程。值得注意的点是：①由于车在不断运动，因此每一帧的BEV其实是不一样的，所以在进行attention计算之前，必须对前两帧的BEV利用can_bus里面传感器的运动信息进行对齐；

2024-11-24 16:01:42 1254

原创全球Deepfake攻防挑战赛|#AI夏令营#Datawhale#夏令营第二期CV方向个人笔记

对于不同的预训练模型效果肯定是大不相同，尤其对于Transformer模型来说，模型特性使得对这种大数据集有天然的优势，在赛题给定200M用thop库衡量参数量的情况下，理论上来说模型越接近于200M效果肯定是越好的，所以打印了以下模型的参数量作为参考。另外，预训练模型在imagenet1K 和21K训练的效果肯定也有所不同，所以也需要实验验证。2. 针对efficientnet_b0 模型来说，别人的结果最终全量数据训练3个epochAcc可以到0.99，但是最终复现失败，整个训练过程貌似随机性比较大。

2024-07-14 21:21:21 366

原创基于星火大模型的群聊对话分角色要素提取挑战赛|#AI夏令营#Datawhale#夏令营进一步优化个人笔记

之前对于整个项目的优化不够清晰，在参考了一些笔记以及官方文档之后，重新尝试一次并记录分享。

2024-07-07 18:35:04 532

原创 Datawhale AI夏令营-大模型技术实践：基于基于星火大模型的群聊对话分角色要素提取个人笔记

就我个人而言，我尝试第一次时发现地址和地区老是对不上，于是在prompt的设计中强调了地址和地区的区别，但是出来的结果却是更加糟糕，这也是一方面的原因，模型对于prompt的理解并不是越详细越好。详见这篇笔记，给出了非常详细的清洗代码和过程。其次就是第二次直播中讲到的大模型清洗，先用大模型对数据进行也就是说将上一步直接交给模型，因为对于大模型来说，数据清洗即简单地删除部分无关内容相比于提起要素任务来说还是要更加简单的，因此可以被认为是大模型预处理。大模型的参数会影响最后的生成结果，在。

2024-07-05 14:07:47 419

原创 Diffusion Models Beat GANs on Image Synthesis 论文笔记

基于DDPM后续任务improved DDPM和DDIM上进行了改进，更加详细地优化了DDPM的结构，从而生成质量更高的图像；其次提出分类器引导的思想，更好地引导DDPM的条件生成，从而超越GAN模型。

2023-03-01 15:38:38 1393 1

原创 Improved Denoising Diffusion Probabilistic Models 论文阅读

改进的DDPM主要由两方面，第一个是损失函数，另外就是噪声表的取值方式，论文通过实验证明了这一点，不仅仅可以改进采样质量，也可以改进采样速度。其次就是和其他生成模型的对比以及和DDIM的对比，改进后的DDPM在采样质量和速度上都有一定的竞争性。

2023-02-27 20:49:14 1596 1

原创 GFPGAN:Towards Real-World Blind Face Restoration with Generative Facial Prior 论文笔记

GFP-GAN把图像去模糊和生成GAN模型进行了结合，使得从去模糊网络中得到图像的特征条件，然后经过GAN生成后回复高频的信息，所以理论上来说还是一个条件生成模型。之所以效果这么好，很大一部分原因是损失函数的设计比较详细，以往的模型直接以PSNR直接作为损失函数，这其实是不太合理的。这篇论文分别将人脸局部、全局的特征、纹理相似性特征、重建特征、对抗损失都考虑在内，另外一个细节是在训练模糊图像时不时直接使用Bicubic的图像，而是随机退化，这样训练的模型更加贴近真实退化过程。

2023-02-23 16:03:07 857 3

原创 ESRGAN/ESRGAN+: Enhanced Super-Resolution Generative Adversarial Networks 论文笔记

本文基于SRGAN的基础上提出了一种新的GAN解决超分辨问题的方法ESRGAN，之后又有在ESRGAN基础上改进的ESRGAN+，在网络框架中其实并不复杂，但是其中一些对框架提出的一些细节非常值得斟酌，包括移除BN层、在激活层之前计算感知损失、辨别器中使用相对概率、通过模型的插值来去噪等，都为后面的模型细节提出了非常好的思路。

2023-02-04 11:06:31 879 1

原创 Deblurring by Realistic Blurring 论文笔记

本文提出了一种基于GAN的图像去模糊方法，分为两个GAN模型，一个用于图像模糊，生成多样性的模糊图像；另外一个用于图像去模糊任务。虽然结果来看还是不错，但是其实DBGAN网络在单独作用的情况下也能取得不错的效果，对于BGAN模型对去模糊任务的帮助其实并不大，至少在实验上不能证明，而且也不能说帮助更好地进行训练或者降低训练数据的要求，有点画蛇添足的感觉。

2023-02-03 11:36:11 429 1

原创 DeblurGAN-v2: Deblurring (Orders-of-Magnitude) Faster and Better 论文笔记

本文提出的方法是基于GAN的条件生成图像恢复任务，其实创新点不是很多，网络结构在现在看来也是直接参考的Resnet，不过在辨别器上提出了多尺度混合的方法并且取得了不错的效果。基于GAN的方法训练过程会比较复杂，但是文中没有给出在训练过程中遇到的困难和解决方法。

2023-02-02 12:02:20 560 1

原创 Burst Image Restoration and Enhancement 论文笔记

本文提出了一种新的多阶段方法来解决由于手持设备或者运动导致多帧图像模糊的问题，可以对图像进行去噪、低亮度增强和超分辨，区别于以往的直接对单张图像进行超分辨、去噪的模型来说，输入需要多帧当前图像，图像之间需要一定的关联性，但是出来的结果对比传统的方法来说确实也更加好，个人认为可能更偏向于应用端。虽然文中说模型参数其实不大，但是，其实模型上来说还比较复杂，分了三个阶段，每个阶段都有自己对应的任务，不过如果将其中的某个阶段拆开和其他的单图超分辨和去噪进行结合，可以尝试有没有更加好的结果。

2023-01-31 15:44:33 1306 1

原创 SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 论文笔记

本文是基于扩散模型提出的超分辨方法，通过算法来看其实本质上是通过用图像的噪声来对高频信息进行预测，最后再和上采用图进行相加，得到的即为高分辨率图片。在一些数据集上取得了不错的效果，并且该模型在图像的内容融合上和潜在空间插值可以取得不错的效果。

2023-01-20 22:05:57 5425 21

原创 Generative Modeling by Estimating Gradients of the Data Distribution 论文笔记

整篇论文给出了另外一种基于数据梯度的郎之万采样扩散模型，与DDPM本质上差不多但是思路上完全不同。从另外一个角度理解了对于扩散模型来说为什么需要添加噪声来进行更好的数据生成，实际上是为了更好地对图像分布梯度进行估计，Unet或者其他模型在估计噪声时实际上就是在估计当前数据的梯度，使得向数据概率大的方向进行移动。

2023-01-14 12:17:34 655 1

原创 DENOISING DIFFUSION IMPLICIT MODELS 论文笔记

相较于DDPM来说，DDIM更具更加确定性的结果，并且可以减少一定的计算时间。DDPM是可以通过改变一定的参数比如论文中的是可以互相转化的，其实也提供了另外一种模型的思路，比如也可以只用DDIM中论文的一部分来减少DDPM模型的计算时间，或者直接应用DDIM在参数上改变，看看能否对超分辨或者图像降噪等问题有新的实验发现。注意：DDIM只是在重建阶段使用，Unet训练的参数和DDPM是一样的，也就是说是通过DDPM训练参数得到的Unet模型应用到DDIM上的，这点是不变的。

2023-01-12 12:17:29 1208 1

原创 Deblurring via Stochastic Refinement 论文笔记

成功将扩散模型应用到了去模糊任务上，增强了生成清晰图片的随机过程，使得最后出来的图片并不是唯一的，但是在人眼观察重建质量上取得了很好的效果，并且在PSNR等指标上也有一定的可比性。此外，论文还认为这两个方向上的指标是相反的，即不能兼顾，一项高就使得另外一项必然会低。最大的亮点是在模型中提出了残差的思路，使得推理速度加快，并且加上初始的推理取得了不错的效果。另外，模型还有很多提升的空间，例如可以采用Unet的结构优化初始推理过程。

2023-01-10 15:46:47 1862 3

原创 Image Super-Resolution via Iterative Refinement 论文笔记

SR3的模型使用了一种全新的超分辨思路，与以往的基于GAN和CNN网络的完全不一样，主要是通过图像的概率分布来对图像进行不断降噪来获取超分辨的图像。实验结果来说因为没有使用PSNR等指标作为损失函数，虽然在这些指标的领域比较一般，但是在其他实验上还是有非常不错的效果。尤其个人认为在imagenet上分辨从错误率上得到了提升，当然其实并没有对比SOTA的模型，所以缺乏一定的说服力，但是总的来说这个思路是有效果的，而且有很大的提升空间。

2023-01-09 18:38:46 4042 4