AI算法
文章平均质量分 74
要养家的程序猿
士不可以不弘毅 任重而道远
展开
-
Open-Sora1.2环境搭建&推理测试
在上一个版本基础上,引入了视频压缩网络(Video Compression Network)、更优的扩散模型算法、更多的可控性,并利用更多的数据训练出了 1.1B 的扩散生成模型。Stable Diffusion 3,最新的扩散模型,通过采用了 rectified flow 技术替代 DDPM,显著提升了图片和视频生成的质量。无意间翻到其开源网站上,发现2024.6.17发布1.2版本了,那还是过来看看有什么长足的进步吧,呦呵,现在支持720P 高清视频,质量和生成时长也有了突破性进展。原创 2024-07-08 15:09:59 · 729 阅读 · 0 评论 -
零一科技Yi-VL 6B视觉大模型环境搭建&推理
感兴趣的童鞋可以移步。我个人始终觉得大模型发展之路,还是要走小而精之路,即模型小但能力强,所以这篇就部署下6B的模型吧(好吧,也许最重要原因是我显卡不够。OK,让我们开始吧。最近看新闻博客说零一科技的Yi-VL-Plus视觉大模型效果很不错,那就想着尝尝鲜。这是第四篇关于视觉大模型的博客。之前有写过一篇零一科技的chat大模型。原创 2024-06-11 09:22:48 · 596 阅读 · 0 评论 -
YOLOv10环境搭建&推理测试
此外,尽管作者在无需NMS的训练下使用一对一 Head 可以获得具有竞争力的端到端性能,但与使用NMS的一对多训练相比,仍然存在性能差距,特别是在小型模型中更为明显。例如,在YOLOv10-N和YOLOv10-S中,使用NMS的一对多训练的性能比无需NMS的训练分别高出1.0% AP和0.5% AP。此外,为了确保两个分支之间的和谐监督,作者创新性地提出了连贯匹配度量,这可以很好地减少理论上的监督差距,并带来性能的提升。2、作者提出了一种整体效率-精度驱动的模型设计策略,用于YOLO的模型架构。原创 2024-06-03 10:49:45 · 1126 阅读 · 0 评论 -
Hunyuan-DiT环境搭建&推理测试
感兴趣的可以移步。鹅厂开源的,我还是头一回部署。好的,那就让我们看看这个多模态视觉大模型有什么特点吧,首先它说它是汉英双语DiT模型,嗯,这个时候必须再次吐槽下智谱开源的CogVLM(),竟然只支持英文。其次呢,当然是各种测试集的niubility和各种sota,这里就不再赘述。OK,让我们开始吧。最近鹅厂竟然开源了一个多模态的大模型,之前分享福报厂的多模态视觉大模型(改为实际路径,防止下载模型。原创 2024-05-27 09:35:10 · 406 阅读 · 0 评论 -
OOTDiffusion环境搭建&推理测试
今天在全球最大的同性交友网站github上突然发现一个不错的虚拟试衣项目,看其效果还是不错,加入了扩散模型,效果看起来有质的提升。(4)在右侧,输入的人类图像通过掩码生成模块(mask generator, HumanParsing+OpenPose )将需要换衣以及相近的地方被遮盖为黑色(masked),并与高斯噪声连接在一起,作为多个采样步骤的去噪UNet的输入。(2)与CLIP编码器生成的辅助调节输入一起,通过服装融合(outfitting fusion)将服装特征纳入去噪UNet。原创 2024-05-22 09:08:33 · 816 阅读 · 0 评论 -
Qwen-VL环境搭建&推理测试
Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。这几天阿里的Qwen2.5大模型在大模型圈引起了轰动,号称地表最强中文大模型。前面几篇也写了QWen的微调等,视觉语言模型也写了一篇CogVLM,感兴趣的小伙伴可以移步。相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;前面也写过一篇智谱AI的视觉大模型(原创 2024-05-13 11:54:12 · 630 阅读 · 0 评论 -
YOLO-World环境搭建&推理测试
官方YOLO-World是基于mmyolo, mmdetection实现的,但U1S1,mm系列对于入门确实不错,但对于新开源算法上手测试真心难用,听说ultralytics支持YOLO-World了,可以直接通过ultralytics库来玩YOLO-world了使用方式简单到了极致,几行命令即可,还不需要安装一大堆的mm包,不需要编译各种无关op。OK,让我们开始吧。YOLO-World在大规模数据集上的预训练展示了强大的零样本性能,在LVIS上达到35.4 AP的同时,还能保持52.0 FPS的速度。原创 2024-05-06 17:26:13 · 1314 阅读 · 2 评论 -
MedSAM环境搭建&推理测试
环境搭建&推理测试,虽然话说Segment Anything,但是原始模型对于一些子领域的效果还是不尽如人意的。最近医学领域的分割引起了我的注意,调研了一圈,也想看看在医学领域是否有SAM,嘿,巧了,还真被我找到了。OK,让我们开始吧。python MedSAM_Inference.py 148行 添加 plt.savefig("result.jpg")1、下载模型后拷贝至work_dir/文件夹下。之前分享过一篇SAM(感兴趣的,请移步。原创 2024-04-15 09:10:42 · 618 阅读 · 1 评论 -
敏感词检测-DFA算法笔记及实现
这种方法是可靠的,但是真实的敏感词库里存放的敏感词是非常多的,如果遍历敏感词库的性能较低,而且大部分情况下用户输入的内容都是不包含敏感词的,大部分情况下遇到的都是算法计算量大的情况,那么就需要找到一种高效的敏感词检测方法。算法实现逻辑是循环用户输入的字符串,依次查找每个字符是否出现在树的节点上,比如用户输入“打倒日本人”,从第一个字开始判断,“打”不在树的根节点上,进入下一步,“倒”也不在根节点上,进入下一步,“日”出现在了根节点上,这时状态切换,下一步的查找范围变为“日”的子节点;OK,让我们开始吧。原创 2024-04-08 09:31:37 · 616 阅读 · 0 评论 -
Open-Sora1.0环境搭建&推理测试
Sora最主要有三个优点:第一,“60s超长视频”,之前文本生成视频大模型一直无法真正突破AI视频的4秒连贯性瓶颈,而Sora直接做到了60秒连贯视频。第二,单视频既能有多角度镜头也能一镜到底,可以很好地展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。说明OpenAI也亲自下场来卷文生图的这个领域了,当然我们现在没办法直接试用Sora看效果,那么今天的主角出场,Open-Sora,北京大学与兔展智能联合发起的Sora复现计划,旨在联合开源社区力量完成对Sora的复现。原创 2024-04-03 08:54:58 · 906 阅读 · 1 评论 -
RT-DETR环境搭建&推理测试
百度的这篇文章首先分析了现代实时目标检测器中NMS对推理速度的影响,并建立了端到端的速度基准。为了避免NMS引起的推理延迟,作者提出了一种实时检测Transformer(RT-DETR),这是第一个实时DERT端到端目标检测器。具体而言,设计了一种高效的混合编码器,通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征,并提出了IoU感知的查询选择,以提高目标查询的初始化。此外,本文提出的检测器支持通过使用不同的解码器层来灵活调整推理速度,而不需要重新训练,这有助于实时目标检测器的实际应用。原创 2024-03-28 14:12:47 · 920 阅读 · 1 评论 -
Detecting of Cracks and Scratches读书笔记
基本的方法是根据零件的重复模式的部分建立一个匹配空域滤波器,然后利用滤波器过滤掉模式,留下完整的表面刮痕,并为表面缺陷优化信噪比。运用匹配滤波器的优势是具备滤波器与输入图片之间定位不匹配的容忍度,随着标准化的不同,容忍度是可以变化的。接下来,减去输入图片的低通图片,留下高通的部分(刮痕和龟裂)。在这个复杂的检测任务上,人类检测员的认定有可能根据不同的因素导致不同的认定结果,然后机器视觉可以给出始终一致的认定结果。由于这些缺陷是低对比度的,合适的光照可以放大对比度,光照对于缺陷检测是一个尤其重要的因素。原创 2024-03-21 13:55:58 · 239 阅读 · 1 评论 -
YOLOv9环境搭建&推理测试
对于CV从业者来说,YOLO系列是个绕不过的经典结构,笔者遥想当年YOLO横空出世的时候,Faster RCNN还是学术界目标检测的翘楚。二阶段检测还是大行其道,不过时至今日,估摸着没有人再提二阶段目标检测的结构了。YOLO系列也从1更新到了9,这新鲜出炉的v9版本,我也来凑个热闹(虽然没有前几年那么热闹了)。OK,让我们开始吧。PS:转换的时候很贴心,没有onnx,自动安装。PS:右上角的自行车检测出来,还是惊艳到我了。oh,no,人生苦短,我选docker。原创 2024-03-11 10:07:52 · 1561 阅读 · 2 评论 -
GFP-GAN环境搭建&推理测试
近期,文生图,wav2lip很火,文生图,见识的太多,不多说了。wav2lip其通过语音驱动唇部动作并对视频质量进行修复,里面一般涉及到三个步骤,文本到语音转化,语音驱动唇部动作,图像质量修复。最后一步骤涉及到图像质量修复,考虑到之前做过基于GFP-GAN相关的工作,在此,总结汇总下。在 wav2lip 中扮演视频质量判别器的任务,负责对嘴唇修复后的图像帧进行质量修复,提供更高质量的视频效果。OK,让我们开始吧。# 安装realesrgan包,用于增强没有人脸情况下的背景,项目刚好需要,就安装了。原创 2024-03-06 11:35:11 · 868 阅读 · 1 评论 -
中英文互译赫尔辛基大学翻译模型安装与测试
近期接到一个文本中英互译的任务,一直以为这种翻译应该很成熟,各种商用版本很多。那么开源的一定也不少,经过网络搜索发现,近两年还真的出现了很多优秀的开源翻译项目。找到了赫尔辛基大学开源免费的多语言翻译模型,开发了1400多个多语种翻译模型。其中就包含了中译英和英译中。OK,那就让我们开始吧。下载红框中的7个文件即可,下载完成后,文件放入指定两个不同文件夹中。1、中译英 python zh_en_test.py。2、英译中 python en_zh_test.py。2、anaconda环境。原创 2024-02-26 17:27:59 · 917 阅读 · 1 评论 -
EfficientNet环境搭建&网络修改
在深度学习CV领域,最初2012年突破的就是图像分类,发展这么多年,基本上已经没有什么进展了。此篇作为之前EfficientNet挽留过的总结,现在整理下,OK,让我们开始吧。一、EfficientNet安装。3、onnx模型删减网络层。2、pth模型转onnx。二、特征提取网络修改。原创 2024-02-22 18:59:38 · 387 阅读 · 1 评论 -
PaddleNLP命名实体识别环境搭建&推理测试
由日中经济协会、经济团体联合会(经团联)、日本商工会议所(日商)等日本经济界团体组成的日中经济协会联合访华代表团(以下简称日本经济界访华团)于1月23日至26日访问北京。由于命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。最近手上接了一个活儿,基于文本语料的实体抽取任务,调研了一圈发现目前开源轮子做的比较好的也就是PaddleNLP(大模型那种巨废资源,且幻觉严重的,不予考虑)。原创 2024-02-18 09:55:50 · 1237 阅读 · 1 评论 -
零一科技Yi-34B Chat大模型环境搭建&推理
国产大模型此起彼伏,各种刷榜。作为没有能力训练的我们,只能跟着大佬开源的模型尝试下效果,零一科技23年底发布的Yi大模型,之前就有尝试,现汇总总结下,OK,我们开始吧。原创 2024-01-15 11:24:26 · 1268 阅读 · 1 评论 -
Segment Anything(SAM)环境安装&代码调试
Segment Anything是前阵子大火的CV领域模型,之前也有尝试,只是没有整理。一、拉取下载docker镜像。原创 2024-01-09 14:32:00 · 732 阅读 · 1 评论