xiexiecn-CSDN博客

原创让人无语的“RuntimeError: probability tensor contains either inf, nan or element ＜ 0 “

上天眷顾，错误变了，不再是"RuntimeError: probability tensor contains either inf, nan or element < 0 "，出来clip ViT-B-32.pt权重hash不match，这个也是比较奇怪，经过轮番轰炸的print debug之后，总结出规律就是，下面这个代码不工作，两次输出的hash不一样。吐槽一下，现在安装torch老是会遇到什么hash不匹配之类的，需要加--no-cache-dir，有时候还不管用，折腾死了，不知道世界咋了。

2024-03-27 21:45:00 4533 4

原创图片分类: 多类别

如果训练过程，需要tensorboard显示中文，可以执行如下python指令，然后执行输出内容里的命令。简单的基于gradio的demo， app.py模型路径要简单调整一下。另外再按照一定比例执行cutmix和mixup增广。使用简便，第一步是按如下格式准备数据集，自定义一个Dataset，实现如下。支持简单的余弦退火学习率调度器。一方面执行简单的数据增广。训练命令example。

2024-01-23 23:07:06 509

原创百川2大模型微调问题解决

2. 模型选取，用baichuan2-13b-chat作为预训练权重，推理的时候总是头部输出我要的内容，但是输出总是无法停止，就算训完一个epoch也是这样，很怪异，研究半天，不知道所以难，干脆放弃，采用不带cat的baichuan2-13b作为预训练权重，这次很快出结果，只要iter 100次保存下来的模型，输出也是我想要的内容，所以就不换了，暂时用baichuan2-13b。主要是llama2已经跑的很好，我实验也就不求甚解，将就先用baichuan2-13b。

2023-12-24 22:32:26 1549

原创视频生成: 基于Stable Diffusion的微调方法

chatGPT带来了几个月的AIGC热度，文本图像生成模型大行其道，但AI在视频生成任务上尚没有较好的开源仓库，并受限于“缺那么几百块A100"的资源问题，大多数人无法展开视频生成的研究。好在目前有不少针对视频生成的相关paper，也有不少开源实现，事实上缺的是一个完整的训练+推理+Pretrained模型，本文要解决的就是这个问题。

2023-04-09 21:09:41 1741 6

原创 InstructPix2Pix: 随口修图

'InstructPix2Pix Learning to Follow Image Editing Instructions是一篇非常有意思的文章，有意思说的是效果，要做出论文的效果过程并没那么顺利。首先需要微调GPT3模型，这个花钱花力气，在之前的文章里已经提过，可以参考finetune一个GPT3。在此基础上稍微修改一下prompt2prompt的代码获取相关样本，然后再按论文的方法修改网络和初始化权重，fine tune一下stable diffusion。代码放在:xuduo35/Instru

2022-12-20 00:21:37 1238

原创 EleutherAI GPT-Neo: 穷人的希望

前面一篇blogfinetune一个GPT3，借助openai的api finetune了一个GPT3，使用下来确实太贵，生成了1w条数据，花掉了60多美刀。肉痛，所以穷人只能想想穷人的办法，脑子就浮现出好朋友EleutherAI的GPT-Neo来。

2022-11-27 20:36:18 4398 4

原创 finetune一个GPT3模型

finetune一个GPT3模型的基本操作

2022-11-25 20:22:05 4340 9

原创复现论文: UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation Model on a Single Image

AIGC大热，每周都有大量新鲜有趣的论文出现，最新的paper基本很快就有人复现出来，包括DreamBooth, Imagic这些，这两天看到一篇Google的论文UniTune，自己尝试基于Stable Diffusion做了下复现，可能没有完美复刻，不过基本可以基于一张图片做很多好玩的事情了。代码开源于:https://github.com/xuduo35/UniTune

2022-11-09 20:30:15 820 3

原创 DreamBooth: 可cosplay，可卡通

源码: https://github.com/XavierXiao/Dreambooth-Stable-Diffusion DreamBooth是Google推出的是一种新的文本到图像个性化扩散模型，只需要几张图片，便可以微调出一个模型，用来实现带有训练图片内容的图像生成。DreamBooth基于Imagen，不开源，无法给广大网友带来福利。外国网友基于"An Image is Worth One Word: Personalizing Text-to-Image Generation using T

2022-11-04 20:51:32 2999

原创半身全身发型替换之一: 方法调研以及相关问题

提出全身半身情况下的发型替换问题和解决思路。

2022-10-25 22:32:21 537 2

原创 3秒换发型

先上几张图看效果换发型的论文非常多了，比如LOHO，HairClip，StyleClip，Barbershop。其中，hairclip以及styleclip速度快，但只能指定特定类型发型，无法实现将Person B的发型包括细节搬到Person A。LOHO以及Barbershop可以一定程度上实现这种细节搬迁，但对于人脸不是对齐的情况效果不佳，另外相当耗时，Barbershop一张图片处理需要约10分钟上下。对iOS App Store上的相关APP做了一番研究，其中有个名为B72..

2022-04-24 22:22:32 1483 12

原创中医之我见

最近疫情肆虐，聊聊中医话题。作为一名中国人，不管你喜欢还是不喜欢多少都会对中医药有所了解，基本概念：阴阳五行、四气五味，经典书籍：伤寒论、黄帝内经、本草纲目，治疗手段：中药处方，针灸。我学中医也蛮久了，从最早开始看教科书，开始背药性赋，熟记汤头歌诀，到自己开方治疗亲戚朋友，有有效，有无效，后又完整学习过西医的内容。这个过程，有惊叹于中医的覆杯而愈，西医的精细病理。然而，就像掌握任何一门工程技术一样，纸上得来终觉浅，绝知此事要躬行。最终，我所有的学习都停留在伤寒论上，张仲景确实了不起。理论系统又直接，

2022-04-10 10:36:42 515

原创 M1芯片Mac使用proxychains4

遇到两个问题1. 先要关机长按开机按钮，进入恢复模式，打开终端执行csrutil disable关闭保护机制2. brew install proxychains-ng这样安装的版本会有问题，报错如下could not be loaded: tried: '/usr/local/lib/libproxychains4.dylib' (mach-o file, but is an incompatible architecture (have 'arm64', need 'arm64e')参考h

2022-02-08 00:23:12 2655 3

原创改Robust Video Matting为Robust Image Matting

Robust Video Matting是目前基于视频抠图的最优方案。它的网络和训练方法优势在于几点:1. 充分利用现有二值分割数据提取语义信息，结合高质量Matting数据集做到发丝级分割2. GRU提取帧间连续特征，稳定分割效果3. 同时支持图像和视频数据4. 支持任意分辨率输入还有几个小的trick，比如最后一层输出直接用conv+clamp不做激活。视频有视频的优势，基于视频的算法依赖于连续帧间信息，运用在只有单张图片的抠图效果并不能达到最好，基于此，我们依然可以将RVM的1、3

2022-01-11 08:44:28 1485 13

原创 arcane卡通化: 潜向量修改操纵头发颜色和发型

最近有个动漫"双城之战"爆火，国外友人开源了一个arcane卡通化模型，在他基础上，针对前面几片文章内容做个总结，demo通过潜向量修改来操纵头发颜色和发型，效果如下，应该还是有点酷吧:...

2022-01-01 23:52:28 669 2

原创单张图片风格人脸卡通化: 试玩JoJoGAN

人脸卡通化好玩有趣，问题是样本不好找，采用后面链接里的方法来训练至少需要2000张左右的样本才能达到一个比较好玩的效果。基于此有不少few shots或者one shot的方案被提出来，JoJoGAN就是最近大火的一个。好处就是只有一张样本，也可以制作你自己的卡通模型。Toonify yourself | Justin Pinkney 原理不做多数，我将https://github.com/mchong6/JoJoGAN里colab带的代码抽取出来做了些简单的实验，代码在最后。首先是复现了一下...

2021-12-29 09:29:45 1347

原创正常训练stylegan的代码突然卡住的原因

ubuntu下，几分钟前才正常执行的代码，突然死活都卡在下面这行File "/home/ubuntu/torch19/lib/python3.6/site-packages/torch/utils/file_baton.py", line 42, in wait time.sleep(self.wait_seconds)分析原因，对照kernel版本，近期自动升级过，修改grub回退kernel版本重新安装驱动，还是没解决。最后google找到原因，需要清除下面这个cache下的文件锁-_-!!

2021-12-29 09:00:13 1733

原创如何更加深入理解一篇深度学习CV论文

关于这个标题，简单介绍一下我自己的思路。首先是，粗略阅读一下这篇论文，怎么算粗略，具体到每个人各有不同。至少读者需要对AI基础的东西有些了解，简单做过一些训练。在这个基础之上，如果对某个领域不那么了解，比如GAN，那么可以先找一些概念梳理一下概念。如果对论文所在领域已经比较熟悉，看过不少论文了，那么粗略就是简单通读一下就可以了。粗略阅读之后，如果发现论文的内容自己感兴趣，作者有开放源码的，可以拉下来跑一跑，看看效果，按自己的想法简单改改，做一些调整，甚至重新训练，当然也可以自己实现一遍。...

2021-12-23 00:26:32 2040

原创 StyleFlow介绍和相关代码

StyleFlow这篇论文看了有阵子，具体有点忘了。这篇博客只讨论人脸，StyleFlow论文本身当然不只是针对人脸来做的。作者是来自阿卜杜拉国王科技大学的Rameen Abdal, Peihao Zhu, Niloy Mitra, Peter Wonka和来自UCL, Adobe Research的NILOY J. MITRA。 StyleFlow能在保持人脸id不变的情况下，对人脸的17个属性维度(包括age, pitch, yaw, beauty, expression, gende...

2021-12-20 23:59:45 1877 12

原创 stylegan2通过操纵潜变量进行人脸编辑方法

stylegan2通过操纵潜变量进行人脸编辑方法

2021-12-04 17:29:39 5295 3

原创关于目标检测算法中分类准确率低的问题

请教了一下原来的同事，给了几篇文章参考，记录一下,1.double head rcnn2.revisiting the sibling head for object detector -- 商汤去年open images的夺冠模型3.Revisiting RCNN: On Awakening the Classification Power of Faster RCNN...

2020-06-04 00:06:37 2136 1

原创 cstddef not found when compiling C++ Extension - macOS

正解:https://github.com/pytorch/pytorch/issues/16805error:'cstddef' file not foundmethod: MACOSX_DEPLOYMENT_TARGET=10.9 CC=clang CXX=clang++ python setup.py install

2020-05-15 00:37:53 1379

原创简单有效的实例分割CenterNet+InstanceFCN

在上一篇博文的基础上，尝试了一种简单有效的实例分割方法，InstanceFCN作为一种全卷积网络的实例（不分类）分割方案，简单有效。CenterNet做分类+bounding box检测，加上一个InstanceFCN实例输出分支，可以实现单阶段分类+bounding box检测+mask输出的有效方案，便于移动端落地。代码:https://github.com/xuduo35/CenterUnet...

2020-05-11 09:10:24 2448 14

原创 centerunet

年后试了试one stage, anchor free的centernet。训练过程发现网络稍作修改就容易出问题，训练过程中心点的结果不容易观察，在这个基础上做了一些工作，总结作如下代码:https://github.com/xuduo35/CenterUnet.git主要是几个方面的调整,1. 将centernet object detection部分代码抽出，简化代码。2....

2020-04-08 08:40:52 436

原创 mobielnet提取特征图片比对

平时pytorch用得多，tf的代码还是弄了半天，网上的code不靠谱太多。当然得先down模型，clone tensorflow models，然后执行下代码里的export。# encoding: utf-8import osimport sysimport cv2import globimport numpy as npimport tensorflow as tfim...

2019-07-25 19:22:28 756

原创记录下以前用opencv训练物体识别的几个命令及相关参数

# ls ./neg/*.* > neg.txt# opencv_createsamples -vec ./pos.vec -info pos.txt -bg ./neg.txt -w 100 -h 100 -num 338# opencv_traincascade -data ./data -vec ./pos.vec -bg ./neg.txt -numPos 200 -minH...

2019-07-17 15:45:36 337

原创采用mtcnn输出的特征点做人脸对齐C++代码

之前开源过一个ios项目做简单的人脸对比（https://github.com/xuduo35/ncnn-mtcnn-facenet），发现没有做人脸对齐，今天研究了下补上。1. deep insight提供的一个头文件FaceProprocess.h，见最后2. 从https://github.com/deepinsight/insightface/issues/481找来的一段code...

2019-07-16 15:17:06 2043 5

原创推荐一个pytorch框架的pretrained模型+unet牛逼的代码库

link:https://github.com/qubvel/segmentation_models

2019-07-09 19:51:44 3306 2

原创 keras的bug: 预训练模型，设置trainable为False的时候得排除BN

采用预训练模型，设置trainable为False的时候得排除BN，不然会出问题。 for layer in backbone.layers: if not isinstance(layer, BatchNormalization): layer.trainable = False网上相关讨论:https://github.com/keras...

2019-07-09 19:50:37 3084

原创 TensorFlow Lite相关实现: On-Device Neural Net Inference with Mobile GPUs

http://arxiv-ai.com/discuss?id=1907.01989由于其较低的延迟和增加的隐私，因此期望用于移动电话的机器学习模型的设备上推断。然而，由于有限的计算能力，热约束和能量消耗，仅在移动CPU上运行这样的计算密集型任务可能是困难的。应用程序开发人员和研究人员已开始利用硬件加速器来克服这些挑战。最近，设备制造商正在使用神经处理单元进入高端手机进行设备推断，但这只占手持设...

2019-07-07 09:06:14 543

原创 End-to-end music source separation: is it possible in the waveform domain?

文章见：http://arxiv-ai.com/discuss?id=1810.12187大多数目前成功的源分离技术使用幅度谱图作为输入，因此默认情况下省略信号的一部分：相位。为避免遗漏可能有用的信息，请研究使用端到端模型进行音乐源分离的可行性 - 它考虑了原始音频信号中可用的所有信息，包括相位。尽管在过去的几十年中，端到端音乐源分离被认为几乎无法实现，但我们的结果证实，基于波形的模型与基于...

2019-07-02 11:32:52 369 1

原创 google翻译破解大综合

近期需要大量调用谷歌翻译，网上搜集了各种办法，最后还是经常被限制，朋友帮忙申请的300美金的免费额度也用完了，通过本地代理（没钱开那么多真的代理，网上找来的免费资源也不靠谱）绕一下也稍微起点作用，有点江郎才尽，最后发现网上的buildUrl代码有问题, s1, t1, h1换成sl, tl, hl总算可以一直调用了（天下文章一大抄，嘿嘿）。所有资源来自网上，懒得一一回溯了，总归都是感谢。当然，翻译...

2019-07-01 11:05:26 2072

原创分割算法的最大用途--医学

在http://arxiv-ai.com搜索了下segmentation，基本上出来的都是医学相关的论文，光25号就有下面这么几篇论文。MFP-Unet: A Novel Deep Learning Based Approach for Left Ventricle Segmentation in EchocardiographyHoVer-Net: Simultaneous Segment...

2019-06-26 21:53:10 736

原创多种算法python2 & python3混合执行的简单处理

有个视频解析项目做了好几年，一台GPU服务器上需要同时跑多种算法。既有跑在GPU上的，也有跑在CPU上的；包括人脸、物体检测等多种算法。深度学习刚开始火的时候，这个项目就存在了，混合了多种框架，cuda也更新了好几个版本，多数深度学习模型开始采用python2，现在逐渐过渡到python3。最近遇到一个问题，AI模型相关算法需要用python3代码执行，其他部分CPU上跑的算法又需要在python...

2019-06-11 23:55:51 380

原创华为鸿蒙，希望是务实的操作系统

上学的时候对操作系统非常有兴趣，跟一个远在天边没见过面的朋友做了一个，08年的时候还发过一个帖子http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=1330529现在来看也是很原始的东西了。最近关于华为鸿蒙的新闻特别多，虽然毕业在通信混了很多年也做了很多linux内核相关的东西，但已经很久没有关注OS或者linux之类的内容了...

2019-05-27 10:46:23 4965 9

原创 darknet踩坑

近期在做动作识别，计划基于人脸检测，crop之后简单做个归类。由于侧脸用mtcnn之类的人脸检测算法效果并不好，加动作识别还要参考人体其他部位，最好是一次能够检测出身体多个部位的模型，测试下来，基于Open Images数据集的效果最好。开始采用google开源的tensorflow research ssd mobilenet模型，但要求tensorflow最新版本，由于原先部署在环境上的不...

2019-05-22 17:57:45 1878

原创 SVM图片归类

原先用了网上随手找的一段代码，gamma值设置不正确，出来的模型效果差。同事给了一段用过的带GridSearchCV参数自动搜寻，一下就ok。训练代码:#!/usr/bin/python#!--*-- coding:utf-8 --*--import sysimport cv2import globimport timeimport numpy as npfrom sk...

2019-05-22 17:48:04 1634

原创 App Store "Guideline 4.3 - Design" 问题处理

最近公司做了个叫做"蕉点"的APP，提交App Store审核却遇到"Guideline 4.3 - Design" 的难题。本来希望年前能够上线，因为这个问题错过了春节。当时计划是，先和苹果申诉，如果没有苹果没有响应或者推荐我们放弃这个APP，那么无论如何我们自己再做一些功能或者UI方面的调整重新冒险提审。按我们自己理解，是苹果审核人员没弄清楚我们APP的实际功能，以为是一款普通的相...

2019-02-13 17:41:43 4113 3

原创 Kaggle蛋白质图集多标签分类竞赛

上个月和同事参加了Kaggle蛋白质图集多标签分类竞赛，获得第5，转发下同事写的Solution。https://www.kaggle.com/c/human-protein-atlas-image-classification/discussion/77731First of all, congratulations to all the winners! Thanks to Kaggl...

2019-01-16 14:57:44 1989

原创利用global matting优化人像数据集mask

#include <opencv2/opencv.hpp>#include <string>#include <vector>#include <list>#include <time.h>#include <algorithm>#include <map>#include <iost

2018-12-21 15:00:21 939 2

空空如也

空空如也