要养家的程序猿-CSDN博客

原创 Ovis1.6-9B视觉大模型环境搭建&推理

引子前阵子，阿里Qwen2-VL刚刚闪亮登场，感兴趣的小伙伴可以移步Qwen2-VL环境搭建&推理测试-CSDN博客。这第一的宝座还没坐多久，自家兄弟Ovis1.6版本就来了，20240919阿里国际AI团队开源多模态大模型Ovis1.6。在多模态权威综合评测基准OpenCompass上，Ovis1.6-Gemma2-9B版本综合得分超越Qwen2VL-7B、InternVL2-26B和MiniCPM-V-2.6等主流开源模型，在300亿以下参数开源模型中位居第一。一、模型介绍根据OpenCompass评测

2024-09-30 09:43:40 445

原创 MiniMind环境搭建&训练推理测试

该项目可以使用极小的数据和计算资源，在3小时内训练出一个26M的模型（ps：也许有读者会问，为啥我总是写推理，没有写训练，那显然是我没那个硬件条件呀，嗯，那这会儿这个条件有了。MiniMind 支持单机单卡和多卡训练，兼容多个流行的框架，并提供完整的代码和文档支持，帮助初学者和研究者快速上手并进行定制和扩展。MiniMind现在总共有5个模型，最小的是26M，已经有不错的对话能力了。但是这个方向还是一直要有人坚持去做的，这不，这两天翻到一个，MiniMind，只要3小时就能训练一个26M的大模型。

2024-09-23 09:24:21 452

原创 Qwen2-VL环境搭建&推理测试

与上一代模型 Qwen-VL 不同，Qwen2-VL 可以处理任意分辨率的图像，而无需将其分割成块，从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知，使模型能够处理任何清晰度或大小的图像。通过将 original rotary embedding 分解为代表时间和空间（高度和宽度）信息的三个部分，M-ROPE 使 LLM 能够同时捕获和集成 1D 文本、2D 视觉和 3D 视频位置信息。），这么小的模型，显然我的机器是跑的起来的，OK，那就让我们开始吧。

2024-09-18 14:37:48 933 1

原创 FancyVideo环境搭建&推理

作者在进行视频生成研究过程中，发现现有的文本到视频（T2V）工作通常会采用空间交叉注意力（Spatial Cross Attention），将文本等价地引导至不同帧的生成过程中，缺乏对不同帧灵活性的文本引导（如下图左）。可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不同运动幅度的视频，其衍生模型还能够完成视频扩展、视频回溯的功能，一种基于 UNet 架构的视频生成模型。修改requirements.txt包版本。

2024-09-09 16:34:53 958

原创 LongWriter环境安装&推理测试

进一步分析用户和大模型的交互日志，研究人员发现只有超过1%的用户请求明确提到要生成超过2000字的文本。为此，他们改变了模型在监督式微调（SFT）阶段使用的数据集的最大输出长度。结果发现，模型的最大输出长度与SFT数据集中的最大输出长度呈显著正相关。即使模型在预训练阶段见过更长的序列，但是SFT阶段缺乏长文本样本，还是会影响输出长度。一口气生成2万字，大模型输出也卷起来了！大模型的生成内容一般都不会太长，这对于内容创作、问题回答等都存在影响，可能导致模型回答问题不全面、创造性能降低等。OK，让我们开始吧。

2024-09-02 11:46:41 403

原创 mPLUG-Owl3环境搭建&推理测试

论文作者来自阿里mPLUG团队，他们一直深耕多模态大模型底座，在此之前还提出了：（1）高效多模态底座mPLUG系列（2）模块化多模态大语言模型底座mPLUG-Owl系列（3）文档理解底座mPLUG-DocOwl系列等。（2）重命名为frpc_linux_amd64_v0.2，并放入gradio(/opt/conda/lib/python3.11/site-packages/gradio)这个文件夹中（按你对应的，每个人的路径可能不一样）（1）先按照提示，下载frpc_linux_amd64文件，

2024-08-26 09:09:20 812 6

原创 OV-DINO开放词检测环境安装与推理

为了应对这些挑战，作者提出了一种新的统一开放词汇检测方法，称为OV-DINO，该方法在统一框架中对各种大规模数据集进行预训练，并使用语言感知选择性融合。在流行的开放词汇检测基准上评估了所提出的 OV-DINO 的性能，在零样本方式下，在 COCO 基准上实现了 50.6% 的 AP，在 LVIS 基准上实现了 40.1% 的 AP，展示了其强大的泛化能力。），最近，由中山大学和美团联合提出新的开放域检测方法OV-DINO：基于语言感知选择性融合、统一的开放域检测方法，取得了开放域检测新SOTA！

2024-08-19 17:38:01 749

原创 CogVideoX环境搭建&推理测试

智谱AI版Sora开源，首个可商用，18G显存即可运行。前文写了Open-Sora1.2的博文，感兴趣的童鞋请移步（对于这种占用资源少，且效果不错的多模态模型那么肯定不容错过。好吧，显存爆了，需要24G显存，我这边可用显存只有22G+单GPU推理 (FP-16) 显存消耗。多GPU推理 (FP-16) 显存消耗。下载地址 (Diffusers 模型)同源的开源版本视频生成模型。微调显存消耗 (bs=1)下载地址 (SAT 模型)CogVideoX是。

2024-08-12 16:01:27 583

原创 SAM2：环境安装&代码调试

而最新发布的 SAM 2 可用于图片和视频，并可以实现实时、可提示的对象分割。SAM 2 在图像分割准确性方面超越了以往的能力，在视频分割性能方面优于现有成果，同时所需的交互时间减少了三倍。SAM 2 还可以分割任何视频或图像中的任何对象（通常称为零镜头泛化），这意味着它可以应用于以前未见过的视觉内容，而无需进行自定义调整。时隔大半年，SAM 2代终于来了，之前写过一篇《Segment Anything（SAM）环境安装&代码调试》，感兴趣童鞋请移步。，OK，让我们开始吧。

2024-08-08 09:45:31 1742 7

原创 Elmo插件安装测试

尤为方便的是，无需登录或拥有GPT/OpenAI账户，用户可以直接使用它，从而提高工作效率和学习效果。写了那么多大模型安装搭建的文章，回过头来看，有没有更简单的方式使用大模型呢。无意间撇到贾清扬大神的公司的Elmo插件，据说新升级，断网都可以使用，那么必须走起，OK，让我们开始吧。访问 chrome://flags/#optimization-guide-on-device-model，选择 Enabled BypassPerfRequirement。4. 访问 chrome://flags/

2024-07-31 09:40:23 457

原创 CogVLMv2环境搭建&推理测试

前一阵子，CogVLMv2横空出世，支持视频理解功能，OK，那就让我们开始吧。1、在许多关键指标上有了显著提升，例如 TextVQA, DocVQA。3、支持高达 1344 * 1344 的图像分辨率。之前写过一篇CogVLM的分享，感兴趣的移步。CogVLM2 系列模型开源了两款基于。4、提供支持中英文双语的开源模型版本。2、支持 8K 文本长度。2、CogVLM2测试。

2024-07-22 09:22:52 333

原创快手可图环境搭建&推理测试

Kolors 在数十亿图文对下进行训练，在视觉质量、复杂语义理解、文字生成（中英文字符）等方面，相比于开源/闭源模型，都展示出了巨大的优势。在 KolorsPrompts 上，我们收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果，并进行了人工评测和机器评测。python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图”"快手开源的东西还是第一次接触，看量子位推的软文，还是很惊艳的。OK，那就让我们开始吧。

2024-07-15 11:03:37 463

原创 Open-Sora1.2环境搭建&推理测试

在上一个版本基础上，引入了视频压缩网络（Video Compression Network）、更优的扩散模型算法、更多的可控性，并利用更多的数据训练出了 1.1B 的扩散生成模型。Stable Diffusion 3，最新的扩散模型，通过采用了 rectified flow 技术替代 DDPM，显著提升了图片和视频生成的质量。无意间翻到其开源网站上，发现2024.6.17发布1.2版本了，那还是过来看看有什么长足的进步吧，呦呵，现在支持720P 高清视频，质量和生成时长也有了突破性进展。

2024-07-08 15:09:59 1236 3

原创 U-KAN环境搭建&推理测试

在严格的医学分割基准上的实证评估，无论是定量还是定性，都强调了U-KAN的卓越性能，即使没有更少的计算成本，也超越了已建立的U-Net主干，提高了准确性。作者的研究进一步探讨了U-KAN作为扩散模型中U-Net噪声预测器的潜力，证实了其在生成面向任务的模型架构中的相关性。作者研究、修改并重新设计已建立的U-Net Pipeline ，通过在标记化的中间表示上整合专用的KAN层，称之为U-KAN。4、将U-KAN应用于现有的扩散模型作为改进的噪声预测器，展示了其在支撑生成任务和更广泛的视觉设置中的潜力。

2024-07-01 09:14:11 912 2

原创 Depth Anything环境搭建&推理测试

作者提出一种用于单目深度估计(Monocular Depth Estimation, MDE)的高度实用方案Depth Anything「致敬Segment Anything」，它旨在构建一种可以处理任务环境下任意图像的简单且强力的基础深度模型。（1）数据集维度设计了一种数据引擎用于数据收集与自动标注，构建了~62M的大规模无标注数据，这极大程度提升了数据覆盖率、降低泛化误差；（2）通过利用数据增广工具构建了一种更具挑战性的优化目标，促使模型主动探索额外的视觉知识，进而提升特征鲁棒性；OK，让我们开始吧。

2024-06-24 10:41:24 501

原创智谱AI GLM-4V-9B视觉大模型环境搭建&推理

智谱AI刚刚开源了GLM-4大模型，套餐里面包含了GLM-4V-9B大模型，模型基于 GLM-4-9B 的多模态模型 GLM-4V-9B。GLM-4V-9B 具备 1120 * 1120 高分辨率下的中英双语多轮对话能力，在中英文综合能力、感知推理、文字识别、图表理解等多方面多模态评测中，GLM-4V-9B 表现出超越 GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max 和 Claude 3 Opus 的卓越性能。嗯，，，很厉害，OK，那就让我们开始吧。

2024-06-17 11:53:45 1524 3

原创零一科技Yi-VL 6B视觉大模型环境搭建&推理

感兴趣的童鞋可以移步。我个人始终觉得大模型发展之路，还是要走小而精之路，即模型小但能力强，所以这篇就部署下6B的模型吧（好吧，也许最重要原因是我显卡不够。OK，让我们开始吧。最近看新闻博客说零一科技的Yi-VL-Plus视觉大模型效果很不错，那就想着尝尝鲜。这是第四篇关于视觉大模型的博客。之前有写过一篇零一科技的chat大模型。

2024-06-11 09:22:48 662

原创 YOLOv10环境搭建&推理测试

此外，尽管作者在无需NMS的训练下使用一对一 Head 可以获得具有竞争力的端到端性能，但与使用NMS的一对多训练相比，仍然存在性能差距，特别是在小型模型中更为明显。例如，在YOLOv10-N和YOLOv10-S中，使用NMS的一对多训练的性能比无需NMS的训练分别高出1.0% AP和0.5% AP。此外，为了确保两个分支之间的和谐监督，作者创新性地提出了连贯匹配度量，这可以很好地减少理论上的监督差距，并带来性能的提升。2、作者提出了一种整体效率-精度驱动的模型设计策略，用于YOLO的模型架构。

2024-06-03 10:49:45 1228

原创 Hunyuan-DiT环境搭建&推理测试

感兴趣的可以移步。鹅厂开源的，我还是头一回部署。好的，那就让我们看看这个多模态视觉大模型有什么特点吧，首先它说它是汉英双语DiT模型，嗯，这个时候必须再次吐槽下智谱开源的CogVLM（），竟然只支持英文。其次呢，当然是各种测试集的niubility和各种sota，这里就不再赘述。OK，让我们开始吧。最近鹅厂竟然开源了一个多模态的大模型，之前分享福报厂的多模态视觉大模型（改为实际路径，防止下载模型。

2024-05-27 09:35:10 493

原创 OOTDiffusion环境搭建&推理测试

今天在全球最大的同性交友网站github上突然发现一个不错的虚拟试衣项目，看其效果还是不错，加入了扩散模型，效果看起来有质的提升。（4）在右侧，输入的人类图像通过掩码生成模块（mask generator， HumanParsing+OpenPose ）将需要换衣以及相近的地方被遮盖为黑色（masked），并与高斯噪声连接在一起，作为多个采样步骤的去噪UNet的输入。（2）与CLIP编码器生成的辅助调节输入一起，通过服装融合（outfitting fusion）将服装特征纳入去噪UNet。

2024-05-22 09:08:33 891

原创 Qwen-VL环境搭建&推理测试

Qwen-VL 可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。这几天阿里的Qwen2.5大模型在大模型圈引起了轰动，号称地表最强中文大模型。前面几篇也写了QWen的微调等，视觉语言模型也写了一篇CogVLM，感兴趣的小伙伴可以移步。相比于目前其它开源LVLM使用的224分辨率，Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。天然支持英文、中文等多语言对话，端到端支持图片里中英双语的长文本识别；前面也写过一篇智谱AI的视觉大模型（

2024-05-13 11:54:12 900

原创 YOLO-World环境搭建&推理测试

官方YOLO-World是基于mmyolo, mmdetection实现的，但U1S1，mm系列对于入门确实不错，但对于新开源算法上手测试真心难用，听说ultralytics支持YOLO-World了，可以直接通过ultralytics库来玩YOLO-world了使用方式简单到了极致，几行命令即可，还不需要安装一大堆的mm包，不需要编译各种无关op。OK，让我们开始吧。YOLO-World在大规模数据集上的预训练展示了强大的零样本性能，在LVIS上达到35.4 AP的同时，还能保持52.0 FPS的速度。

2024-05-06 17:26:13 1838 2

原创 CogVLM/CogAgent环境搭建&推理测试

CogAgent-18B拥有110亿的视觉参数和70亿的语言参数, 支持1120*1120分辨率的图像理解。CogAgent-18B 在9个经典的跨模态基准测试中实现了最先进的通用性能，包括 VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, 和 POPE 测试基准。CogVLM-17B拥有100亿的视觉参数和70亿的语言参数，支持490*490分辨率的图像理解和多轮对话。OK，让我们开始吧。嗯哼，这么官方的语句，显然是我抄的。

2024-04-30 10:16:58 1321 2

原创 Qwen1.5微调

修改为单机单卡，重启容器，docker run -it --rm --gpus='"device=1"' -v /mnt/code/LLM_Service/:/workspace qwen:v1.0 bash。修改脚本，/workspace/qwen1.5_train/Qwen1.5/examples/sft/finetune.sh。由于工作上需要，一直在用Qwen做大模型推理，有个再训练的需求，特此琢磨下Qwen的训练。out of memory，修改为7B模型重新尝试，下载地址。单机多卡，继续报错。

2024-04-23 11:45:20 1325 4

原创 MedSAM环境搭建&推理测试

环境搭建&推理测试，虽然话说Segment Anything，但是原始模型对于一些子领域的效果还是不尽如人意的。最近医学领域的分割引起了我的注意，调研了一圈，也想看看在医学领域是否有SAM，嘿，巧了，还真被我找到了。OK，让我们开始吧。python MedSAM_Inference.py 148行添加 plt.savefig("result.jpg")1、下载模型后拷贝至work_dir/文件夹下。之前分享过一篇SAM（感兴趣的，请移步。

2024-04-15 09:10:42 735 1

原创敏感词检测-DFA算法笔记及实现

这种方法是可靠的，但是真实的敏感词库里存放的敏感词是非常多的，如果遍历敏感词库的性能较低，而且大部分情况下用户输入的内容都是不包含敏感词的，大部分情况下遇到的都是算法计算量大的情况，那么就需要找到一种高效的敏感词检测方法。算法实现逻辑是循环用户输入的字符串，依次查找每个字符是否出现在树的节点上，比如用户输入“打倒日本人”，从第一个字开始判断，“打”不在树的根节点上，进入下一步，“倒”也不在根节点上，进入下一步，“日”出现在了根节点上，这时状态切换，下一步的查找范围变为“日”的子节点；OK，让我们开始吧。

2024-04-08 09:31:37 838

原创 Open-Sora1.0环境搭建&推理测试

Sora最主要有三个优点：第一，“60s超长视频”，之前文本生成视频大模型一直无法真正突破AI视频的4秒连贯性瓶颈，而Sora直接做到了60秒连贯视频。第二，单视频既能有多角度镜头也能一镜到底，可以很好地展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系，并且镜头丝滑可变。说明OpenAI也亲自下场来卷文生图的这个领域了，当然我们现在没办法直接试用Sora看效果，那么今天的主角出场，Open-Sora，北京大学与兔展智能联合发起的Sora复现计划，旨在联合开源社区力量完成对Sora的复现。

2024-04-03 08:54:58 1168 1

原创 RT-DETR环境搭建&推理测试

百度的这篇文章首先分析了现代实时目标检测器中NMS对推理速度的影响，并建立了端到端的速度基准。为了避免NMS引起的推理延迟，作者提出了一种实时检测Transformer（RT-DETR），这是第一个实时DERT端到端目标检测器。具体而言，设计了一种高效的混合编码器，通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征，并提出了IoU感知的查询选择，以提高目标查询的初始化。此外，本文提出的检测器支持通过使用不同的解码器层来灵活调整推理速度，而不需要重新训练，这有助于实时目标检测器的实际应用。

2024-03-28 14:12:47 1080 1

原创 Detecting of Cracks and Scratches读书笔记

基本的方法是根据零件的重复模式的部分建立一个匹配空域滤波器，然后利用滤波器过滤掉模式，留下完整的表面刮痕，并为表面缺陷优化信噪比。运用匹配滤波器的优势是具备滤波器与输入图片之间定位不匹配的容忍度，随着标准化的不同，容忍度是可以变化的。接下来，减去输入图片的低通图片，留下高通的部分（刮痕和龟裂）。在这个复杂的检测任务上，人类检测员的认定有可能根据不同的因素导致不同的认定结果，然后机器视觉可以给出始终一致的认定结果。由于这些缺陷是低对比度的，合适的光照可以放大对比度，光照对于缺陷检测是一个尤其重要的因素。

2024-03-21 13:55:58 253 1

原创 YOLOv9环境搭建&推理测试

对于CV从业者来说，YOLO系列是个绕不过的经典结构，笔者遥想当年YOLO横空出世的时候，Faster RCNN还是学术界目标检测的翘楚。二阶段检测还是大行其道，不过时至今日，估摸着没有人再提二阶段目标检测的结构了。YOLO系列也从1更新到了9，这新鲜出炉的v9版本，我也来凑个热闹（虽然没有前几年那么热闹了）。OK，让我们开始吧。PS：转换的时候很贴心，没有onnx，自动安装。PS：右上角的自行车检测出来，还是惊艳到我了。oh，no，人生苦短，我选docker。

2024-03-11 10:07:52 1771 2

原创 GFP-GAN环境搭建&推理测试

近期，文生图，wav2lip很火，文生图，见识的太多，不多说了。wav2lip其通过语音驱动唇部动作并对视频质量进行修复，里面一般涉及到三个步骤，文本到语音转化，语音驱动唇部动作，图像质量修复。最后一步骤涉及到图像质量修复，考虑到之前做过基于GFP-GAN相关的工作，在此，总结汇总下。在 wav2lip 中扮演视频质量判别器的任务，负责对嘴唇修复后的图像帧进行质量修复，提供更高质量的视频效果。OK，让我们开始吧。# 安装realesrgan包，用于增强没有人脸情况下的背景，项目刚好需要，就安装了。

2024-03-06 11:35:11 944 1

原创中英文互译赫尔辛基大学翻译模型安装与测试

近期接到一个文本中英互译的任务，一直以为这种翻译应该很成熟，各种商用版本很多。那么开源的一定也不少，经过网络搜索发现，近两年还真的出现了很多优秀的开源翻译项目。找到了赫尔辛基大学开源免费的多语言翻译模型，开发了1400多个多语种翻译模型。其中就包含了中译英和英译中。OK，那就让我们开始吧。下载红框中的7个文件即可，下载完成后，文件放入指定两个不同文件夹中。1、中译英 python zh_en_test.py。2、英译中 python en_zh_test.py。2、anaconda环境。

2024-02-26 17:27:59 1185 2

原创 EfficientNet环境搭建&网络修改

在深度学习CV领域，最初2012年突破的就是图像分类，发展这么多年，基本上已经没有什么进展了。此篇作为之前EfficientNet挽留过的总结，现在整理下，OK，让我们开始吧。一、EfficientNet安装。3、onnx模型删减网络层。2、pth模型转onnx。二、特征提取网络修改。

2024-02-22 18:59:38 445 1

原创 PaddleNLP命名实体识别环境搭建&推理测试

由日中经济协会、经济团体联合会（经团联）、日本商工会议所（日商）等日本经济界团体组成的日中经济协会联合访华代表团（以下简称日本经济界访华团）于1月23日至26日访问北京。由于命名实体数量不断增加，通常不可能在词典中穷尽列出，且其构成方法具有各自的一些规律性，因而，通常把对这些词的识别从词汇形态处理（如汉语切分）任务中独立处理，称为命名实体识别。最近手上接了一个活儿，基于文本语料的实体抽取任务，调研了一圈发现目前开源轮子做的比较好的也就是PaddleNLP（大模型那种巨废资源，且幻觉严重的，不予考虑）。

2024-02-18 09:55:50 1373 1

原创瑞芯微电子RV1126芯片环境搭建&SSD模型转换指南

回到SSD-mobilenet_tf的训练代码，在ssd_meta_arch.py中添加如下代码，在research目录下执行python setup.py install，运行model_main.py（即训练，训练时有生成），即可生成保存prior_boxes的文件box_priors.txt。在索书号场景下，有1917个prior_box。故翻了翻陈年的笔记，找到当年使用瑞芯微电子出的一款芯片RV1126的使用笔记，当时拿到的是一款基于RV1126的IP摄像头，在此整理记录下。OK，让我们开始吧。

2024-02-05 09:31:20 1769 1

原创华为Atlas 200DK环境搭建&推理测试

网线连接用于Atlas 200 DK共享PC机网络，Atlas 200 DK eth0的网关地址需要与PC机中与Atlas 200 DK相连的NIC网卡的IP地址保持一致，将PC机上网络共享给连接Atlas 200 DK的NIC网卡，则Atlas 200 DK即可接入互联网。Atlas 200 DK中eth0网卡的网关与eth0 IP地址在同一网段即可，例如Atlas 200 DK的eth0的默认IP地址为“192.168.0.2”，则此处可以配置eth0的网关为“192.168.0.101”。

2024-01-29 09:56:06 2077

原创 Ubuntu安装PyTurboJPEG库

说到PyTurboJPEG那一定要聊到TurboJPEG，那么说到TurboJPEG（libjpeg-turbo）那一定要聊到libjpeg，大名鼎鼎的libjpeg大家一定都听说过。那么TurboJPEG呢，就是基于libjpeg的，优化了的高性能JPEG压缩库，并且它在压缩率和速度之间做了很好的平衡，采用了SIMD指令集（MMX，SSE2，NEON，AltiVec），来加速x86，x86-64，ARM和PowerPC系统上的JPEG压缩和解压缩。童鞋们，可能会说，CV领域中遇事不决，OpenCV。

2024-01-22 11:30:34 722

K-L变换在人脸识别中的应用

模拟电子技术试题及答案

空空如也