华农度假村村长-CSDN博客

原创【蒸馏】目标检测蒸馏的不完全整理和个人笔记

其实仔细想想模型蒸馏的监督信号无非来自原先损失函数（分类，bbox）或者是相关组件（backbone，FPN），在这里我不太想用传统的logit蒸馏和feature map蒸馏来表示上面两种蒸馏方式，主要是现在的目标检测的蒸馏大多数是围绕相关组件和分类，对于bbox这一目标检测的重要组成部分的论文相对较少。如果没有NCKD，类的相似度(或者突出的暗知识)的信息是不可用的，所以TCKD的梯度不能起到很好的作用，反而会导致性能下降(因为TCKD可以在易拟合的训练数据上带来边际性能增益)。

2024-01-28 01:00:26 1254

原创【部署】预处理和后处理加速方案：CVCuda

使用CVcuda实现预处理

2023-12-05 15:24:27 680

原创【c++】多线程大幅缩减时间

提醒自己能够在多线程运算的时候一定要充分利用。多线程在进行复杂运算时能够大量节约时间。能够省下2/3的时间。

2023-11-27 14:47:22 569

原创【论文】P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

模型参数较少时，远不如微调有效性可能只能局限在一些特定的任务中。

2023-11-16 22:02:31 232

原创【论文解读】GPT Understands, Too

区别于之前的工作，这篇工作认为promote可以在句子中的任意位置起到作用，可以将它们插入上下文或目标中上图中，左图是不使用任何操作，右图是选择在居首和目标前插入promote的embedding，插入promote的过程可以表示为其中x代表一系列离散的输入令牌，y代表目标（可以理解为希望模型想要给你的回答），e（）表示对应的embedding，其实就是将其参数化映射成为伪tokens，即通过最小化这些参数。

2023-11-16 14:39:40 539

原创【论文解读】The Power of Scale for Parameter-Efficient Prompt Tuning

前缀调优”的简化版。

2023-10-21 15:56:16 621

原创【论文解读】Prefix-Tuning: Optimizing Continuous Prompts for Generation

在这种情况下，用户可以向 GPT-3 提供一些上下文或提示（prompt），以引导模型生成相关的回复或执行特定任务，而不必重新训练或微调模型。前缀调优（prefix-tuning）将一系列，被称之为前缀（prefix），连续的特定于任务的向量添加到输入中。为了生成每个令牌，LM可以像处理“虚拟令牌”序列一样处理前缀，但与提示不同的是，前缀完全由不对应于真实令牌的自由参数组成。上下文可以通过指导从x中提取什么来影响任务输入x的编码，并且可以通过指导下一个令牌分布来影响任务输出y的生成。

2023-10-21 01:08:08 852

原创【论文解读】Parameter-Efficient Transfer Learning for NLP

以Adapter类为例，在初始化函数中我们可以看到Adapter实际上就是一个（LayerNorm）+ 线性层/PHMLayer + 激活函数。在AdapterLayer类中的add_adapter函数，往每一层中添加了Adapter或者是ParallelAdapter。通过add_adapter调用模型父类ModelAdaptersMixin的add_adapter方法实现增加adapter。3.1.1 _add_adapter_weights函数。

2023-10-20 13:25:03 1153 1

原创【论文解读】QLORA: Efficient Finetuning of Quantized LLMs

(1)4位NormalFloat，一种信息理论上最优的正态分布数据量化数据类型，比4位整数和4位浮点数产生更好的经验结果。(2)双量化。(3)Paged Optimizers，使用NVIDIA统一内存，以避免处理具有长序列长度的小批量时发生的梯度检查点内存峰值。

2023-10-19 09:12:55 601

原创【论文解读】FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization

最先进的延迟-精度权衡在两个广泛使用的平台——移动设备和桌面GPU上的延迟是最快的。

2023-08-23 01:17:54 457

原创【GAN】【论文笔记】A Style-Based Generator Architecture for Generative Adversarial Networks

论文工作可以参考【

2023-08-20 10:53:06 79

原创 PNP结算方法（后面可能有空再补充了）

一些pnp的实验结论：（1）yaw角稳定性上：在opencv中，固定一个识别物体检查结算的yaw角在这张图中l1是ippe，l2是AP3P，l3,l4分别是UPNP，EPNP，两者基本重叠第二张图l1,l2,l3,l4分别是IPPE，DLS，UPNP，EPNP，后三者基本重叠，视为相等，且没有明显数据波动。

2023-08-20 01:13:33 271

原创【c++】c++的一些技术操作

通过void *arg指针接受任何类型的指针，再使用强制类型转换运算符创建一个新的实例。

2023-08-20 01:11:54 144

原创【论文解读】Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking

多目标跟踪(MOT)将问题分为两个子任务。第一个任务是检测每个帧中的对象。第二个任务是将它们在不同的框架中联系起来。关联任务主要通过显式或隐式地利用强线索来解决，包括空间和外观信息。

2023-08-19 14:37:46 2425

原创【论文解读】Observation-Centric SORT:Rethinking SORT for Robust Multi-Object Tracking

以观测为中心的SORT：重新思考用于鲁棒多目标跟踪的SORT

2023-08-19 11:23:13 342

原创【计算机视觉】相机基本知识（还在更新）

面阵相机则主要采用的来实现产品的检测；线阵相机即利用来进行物体扫描的工作的。

2023-08-19 10:45:01 2579

原创【GAN】基础知识（还在更新）

还没写完，别骂了.....遇到啥新东西也会补充进来。

2023-07-11 02:13:00 389

原创【GAN】【论文笔记】PROGRESSIVE GROWING OF GANS FOR IMPROVEDQUALITY, STABILITY, AND VARIATION

因为这一篇是我们GAN章节的起点，GAN的一些相关知识我已经整理在了【这一篇】中，可以先进行了解一下。

2023-07-11 01:59:43 90

原创【论文笔记】FASTER SEGMENT ANYTHING:TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS

SAM流水线计算繁重的原因在于巨大的图像编码器，这项工作中研究了资源受限移动设备的轻量级SAM。

2023-06-29 16:26:30 643

原创【论文笔记】Fast Segment Anything

SAM架构的主要部分Transformer（ViT）模型相关的大量计算资源需求，这给其实际部署带来了障碍。

2023-06-26 14:22:46 1411

原创【论文笔记】BEIT 3 ——Image as a Foreign Language: BEIT Pretraining forAll Vision and Vision-Language Tasks

beit，beit2都还只是单模态的工作，到第三代变成了一个多模态的工作，半响不敢确认是不是beit3... 这篇工作还是能看到他们组其他工作的影子，beit系列自不必多说，还有vlmo等，可以算是一个集大成的工作。六边形战士。

2023-06-25 23:23:00 311

原创【论文笔记】VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

提出了一种统一的视觉语言预训练模型（VLMO），该模型既可以用作双编码器，对检索任务的图像和文本进行单独编码，也可以用作融合编码器，对分类任务的图像-文本对的深度交互进行建模。

2023-06-25 18:37:34 488 1

原创【论文笔记】BEIT V2: Masked Image Modeling with Vector-Quantized Visual Tokenizers

当时的所有的重建目标都是关于低级图像元素的，低估了高级语义。【Q】怎么去定义高级和低级语义。

2023-06-25 18:08:46 1489 1

原创【论文笔记】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS

视觉转换器的输入单元，即图像补丁，没有预先存在的词汇。预测遮罩面片的原始像素往往会在预训练短程依赖性和高频细节上浪费建模能力。

2023-06-24 18:23:57 539 1

原创【论文笔记】BLIP-2: Bootstrapping Language-Image Pretrainingwith Frozen Image Encoders and Large Language

BLIP-2通过轻量级的查询转换器弥补了模态缺口，该转换器分两个阶段进行预训练。第一阶段从冻结图像编码器中引导视觉语言表示学习。第二阶段从冻结的语言模型中引导视觉到语言生成性学习。

2023-06-24 16:34:05 444 1

原创【论文笔记】BLIP: Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and

（1）模型视角：大多数方法要么采用基于编码器的模型，要么采用编码器-解码器模型。基于编码器的模型不太容易直接转移到文本生成任务（例如，图像字幕），而编码器-解码器模型尚未成功用于图像文本检索任务。(2)数据集j角度：存在噪声，训练次优基于编码器的模型：CLIP，缺少decoder对文本生成的能力相对较弱采用编码器-解码器：SimVLM。

2023-06-23 16:22:13 235 1

原创【环境】ceres库在ubantu的qt和VScode上配置

一直没找到比较好的解决静态库的问题，最后还是投降使用了动态库，记录一下！安装的是1.4,够用而且不会出现2.1版本的奇怪问题。进入到对应文件夹的路径下。计算是基本配置完成了。

2023-06-21 16:50:04 634

原创【论文笔记】Align before Fuse: Vision and LanguageRepresentation Learning with Momentum Distillation

（1）图像特征和单词标记嵌入存在于它们自己的空间中，难以建模两者之间关系（2）对象检测器标注和计算成本过高（3）ALT数据集噪声影响训练（网络爬取的数据集大部分都是以关键词为主，不能很好的描述）

2023-06-17 14:39:36 132

原创【C++】C++11 的命令行分析器

可以直接从这里下载https://download.csdn.net/download/weixin_50862344/87900168。2.将 CLI11.hpp 添加到路径下。1.在main函数中增加。

2023-06-12 22:07:36 200

原创【部署】MNN推理

【参考】这篇将整个过程归纳为以下5步：（1）创建Interpreter（2）调度配置ScheduleConfi（3）后端配置BackendConfig（4）创建session（5）输入数据（6）进行会话并获取输出（后处理）

2023-06-12 20:09:59 1851

原创【实战】minigpt4的体验和微调

将llama-13b-hf/tokenizer_config.json 中的"tokenizer_class": “LLaMATokenizer” 改成 “tokenizer_class”: “LlamaTokenizer”（1）train_configs/minigpt4_stage2_pretrain.yaml为第一阶段的训练checkpoint。（2minigpt4/configs/datasets/cc_sbu/align.yaml修改为数据集路径。中llama_model的路径。

2023-06-12 16:33:39 2632 1

原创【实战】Chatglm微调指引和部署（MNN）

相对简单，而且微调之后性能比较奇怪，可以参考。

2023-06-12 15:34:20 722

原创【cuda】cudaGetDeviceProperties，cudaDeviceGetAttribute，cudaMemGetInfo

要除以 1024.0 三次，是因为通常我们将内存大小以字节为单位表示。在这里，除以 1024.0 三次即可将字节转换为千兆字节（GB）接受两个参数 free 和 total，都是指向 size_t 类型的指针。调用该函数后，它会将当前设备上的。大小存储在 free 中，将。大小存储在 total 中。

2023-06-12 04:12:52 667

原创【实战】体验SadTalker

链接: https://pan.baidu.com/s/18ssIL7vrRg_mcov5H6hEQA?pwd=9xkm 提取码: 9xkm。这篇东西也算是出来有一段时间了。一直在等训练代码，但是好像遥遥无期，先做个简单的环境记录，等后面训练代码出来连同论文一起记录一下。很顺利，基本上也没啥问题，就是下载checkpoint 有点久。--来自百度网盘超级会员v2的分享。这两个权重我全部丢在百度网盘了。

2023-06-12 02:53:56 589

原创【实战】体验训练Geneface

链接: https://pan.baidu.com/s/1s4g9RUB3OxQZEX7mpoF2ng?pwd=ghry 提取码: ghry。链接: https://pan.baidu.com/s/1Za2AGBfm7QQAHoelrGMcLg?pwd=5krc 提取码: 5krc。训练这篇出过的一些奇奇怪怪的问题基本上都记录在。这东西确实也是把饭喂到嘴巴里了，我也就不赘述了。--来自百度网盘超级会员v2的分享。--来自百度网盘超级会员v2的分享。这个鬼东西要下载的东西不少。

2023-06-12 02:53:32 1467 1

原创【实战】Simple and Controllable Music Generation

等代码出来，我在更新训练和论文。

2023-06-12 02:21:50 149

原创【环境】pip install时出现json.decoder.JSONDecodeError报错

检查了/home/eveing/.cache/pip/wheels路径下的json文件为空。再次报错只能将cache对应路径下的全部文件（包括whl和json文件）删除，进而安装成功。能缓解但是似乎不能完全解决。

2023-06-11 23:49:38 628

原创【深度】交叉注意力机制

交叉注意力机制，也称为cross-attention，是指在注意力机制中，一个序列中的某个位置与另一个序列中的所有位置进行注意力计算。

2023-06-10 22:40:11 5465

原创【论文笔记】BERT : Pre-training of Deep Bidirectional Transformers forLanguage Understanding

很多工作的基础性工作，一直没机会正式阅读过论文，这次趁着这个机会学一下。

2023-06-10 22:27:17 92

原创【论文笔记】Deep contextualized word representations

ELMo使用基于深度双向语言模型的训练方式来学习单词表示，其中模型被训练为预测给定上下文的下一个单词。通过这种方式，ELMo能够从大量的语言数据中学习到单词的复杂特征，包括上下文相关的信息。ELMo通过使用双向语言模型，能够利用上下文信息对单词进行建模，并生成针对不同上下文的不同表示。这样，相同的单词在不同的上下文中可以具有不同的表示，从而更好地捕捉到多义性。深度语境化单词表示的两个挑战：（1）单词使用的复杂特征（例如，语法和语义），以及（2）这些使用如何在语言上下文中变化（即，建模多义）。

2023-06-10 21:25:28 44