自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

天风的人工智能博客

分享机器学习,深度学习经验

  • 博客(70)
  • 收藏
  • 关注

原创 【stable diffusion 小白最全详细使用教程+大模型资源】

稳定扩散算法(stable diffusion)可以应用于图像处理中的许多问题,例如图像去噪、图像分割、图像增强和图像恢复等。在图像去噪方面,稳定扩散算法可以通过对图像进行平滑处理来减少噪声,并保留图像的细节信息。在图像分割方面,稳定扩散算法可以通过对图像进行聚类来将图像分成不同的区域。在图像增强方面,稳定扩散算法可以通过增加图像的对比度和亮度来使图像更加清晰。在图像恢复方面,稳定扩散算法可以通过重建缺失的像素来恢复图像的完整性。B站秋叶大佬一键三连。

2023-05-15 14:43:07 10337 3

原创 so-vits-svc:AI翻唱,语音克隆

这个项目是为了让开发者最喜欢的动画角色唱歌而开发的,任何涉及真人的东西都与开发者的意图背道而驰。

2024-05-15 16:11:31 2020

原创 GPT-SoVits:语音克隆,语音融合

输入 5 秒的声音样本,即刻体验文本到语音转换。仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。支持与训练数据集不同语言的推理,目前支持英语、日语和中文。集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。

2024-05-11 22:45:42 1399 2

原创 AnythingLLM+Ollama构建本地知识库

这是一个全栈应用程序,可以将任何文档、资源(如网址链接、音频、视频)或内容片段转换为上下文,以便任何大语言模型(LLM)在聊天期间作为参考使用。此应用程序允许您选择使用哪个LLM或向量数据库,同时支持多用户管理并设置不同权限。工作区内的智能体Agent(浏览网页、运行代码等)支持多种文档类型(PDF、TXT、DOCX等)通过简单的用户界面管理向量数据库中的文档聊天和查询。聊天模式保留先前的对话记录。查询模式则是是针对您的文档做简单问答聊天中会提供所引用的相应文档内容。

2024-05-11 13:18:40 803

原创 基于自己数据微调LLama3并本地化部署

微调LLama3

2024-05-09 17:01:00 2913 3

原创 open-webui+ollama本地部署Llama3

Meta Llama 3 是由 Meta 公司发布的下一代大型语言模型,拥有 80 亿和 700 亿参数两种版本,号称是最强大的开源语言模型。它在多个基准测试中超越了谷歌的 Gemma 7B 和 Mistral 7B Instruct 模型。

2024-05-06 21:54:14 1534

原创 实时绘画迎来大更新,本地即可部署

自此LCM公布以来,这一个星期在相关应用方面的更新速度nb,各种实时绘画工作流随之出现,之前还只能依赖krea内测资格使用,让我们来看看上周发生了那些事吧!

2023-12-04 12:05:52 2343

原创 【LCM(潜在一致性模型)-5步即可高质量出图】

由潜在一致性模型 (LCM) 生成的图像。LCM 只需 4,000 个训练步骤(约 32 个 A100 GPU 小时)即可从任何预训练的稳定扩散 (SD) 中提取出来,只需 2~4 个步骤甚至一步即可生成高质量的 768 x 768 分辨率图像,从而显着加速文本转换-图像生成。我们使用 LCM 在短短 4,000 次训练迭代中提取了 Dreamshaper-V7 版本的 SD。

2023-11-20 20:26:25 811

原创 stable diffusion十七种controlnet详细使用方法总结

最近不知道发点什么,做个controlnet 使用方法总结好了,如果你们对所有controlnet用法,可能了解但是有点模糊,希望能对你们有用。

2023-11-18 18:08:01 1690 2

原创 comfyui安装指南及animaldiff使用

教给大家一个思路,不会搭建工作流也无所谓,像comfyui官网提供了很多工作流,就像下面图和example,一般都会给出JSON工作流文件或者图片,直接下载拖入到comfyui中就自动生成了一样的工作流;加载animaldiff工作流,可能会提示缺少节点需要安装节点,安装完重启即可,还有下载v2模型和运动模型,看我上篇文章,放在下面对应位置。还有其他插件工作流,可以直接去官方代码也有类似文件,例如animaldiff,下载工作流直接加载就行。下载完依赖文件后,点击右上角设置,选择中文。

2023-10-23 17:00:01 2136

原创 10月份stable diffusion animatediff等插件使用指南,又来更新了

插件一直会更新,包含了基本市面上流行的90%插件,好用的插件更是不会错过,往期插件请看往期文章,如果你没有时间一直关注sd更新的进展,请关注我,一个月用几个小时看一下我的文章,最短时间跟进sd。也算是我的个人笔记。

2023-10-18 17:07:33 1563

原创 mask-R-CNN

代码论文# Mask-rcnn 算法在 torch vision 中有直接实现,可以直接引用使用在自己的工作中。Mask R-CNN(Mask Region-based Convolutional Neural Network)是一种用于目标检测和实例分割的深度学习模型,它是 Faster R-CNN 的扩展,同时可以生成目标的二进制掩码(mask),因此可以实现精确的实例分割。\1. 骨干网络:Mask R-CNN通常使用骨干网络(如 ResNet)来提取图像特征。这些特征用于目标检测和分割任务。

2023-10-16 17:42:52 239

原创 【Unet系列】

分割任务就是在原始图像中逐像素的找到你需要的家伙!

2023-10-05 15:47:57 277

原创 stable diffusion 1.5大模型炼制详细教程,几块钱即可炼制大模型

之前已经讲过SDXL_LORA,SD1.5_LORA训练过程,基本说的比较清楚了,有兴趣可以去看看,下面我将讲解一下SD1.5大模型的炼制。DreamBooth 是一种定制个性化的 TextToImage 扩散模型的方法。仅需少量训练数据就可以获得极佳的效果。Dreambooth 基于 Imagen 研发,使用时只需将模型导出为 ckpt,然后就可以被加载到各种 UI 中。然而,Imagen 的模型和预训练的权重都不可用。所以最初的 Dreambooth 并不适用于稳定扩散。

2023-09-27 16:56:47 1820 3

原创 【DETR】

论文代码DETR(Data-efficient Image Transformer)是一种用于目标检测任务的深度学习模型。它与传统的目标检测方法不同,采用了Transformer架构,将目标检测问题转化为一个序列到序列的问题。以下是DETR模型的一些关键特点:Transformer架构: DETR采用了Transformer架构,这是一种用于自然语言处理的架构,但在DETR中被用于图像处理。这种架构允许模型同时处理整个图像,而不是传统的滑动窗口或区域提议方法。

2023-09-26 15:43:59 412 1

原创 EfficientNet笔记

论文EfficientNet 是一系列卷积神经网络架构,它旨在在计算资源受限的情况下实现更好的性能。EfficientNet 的设计思想是在网络的深度、宽度和分辨率方面进行均衡的调整,以获得高效且高性能的模型。复合系数(Compound Scaling):EfficientNet 使用了复合系数来平衡网络的深度、宽度和分辨率。它通过对网络的不同维度(例如深度、宽度、分辨率)应用统一的缩放因子来确保网络各个部分之间的平衡。这种方法使得网络可以在不同的任务和计算资源条件下进行调整。

2023-09-24 22:45:26 446

原创 【SDXL_LORA模型训练详细教程(含云端教程)】

之前写过一篇SD1.5 LORA模型的炼制方法,有的人想要我详细点说说秋叶启动器的lora训练器,SDXL建议使用秋叶的训练器,SD1.5赛博丹炉,个人习惯仅供参考!这次基于sdxl_lora模型的训练,顺便给大家详细的讲讲训练过程。

2023-09-17 22:07:59 3492 6

原创 【VAE】

毫无疑问的,当Encoder输出的数据分布越接近正态分布时,我们所构筑的正态分布才会越靠近原始数据中的信息,从这样的正态分布中抽取的样本才会更接近真实的数据样本。之前我们强调过,在变分自动编码器的流程当中,均值和标准差都不是通过他们的数学定义计算出来的,而是通过Encoder提炼出来的。现在就是我们要从p(Z|Xk)中采样一个Zk出来,尽管我们知道了p(Z|Xk)是正态分布,但是均值方差都是靠模型算出来的,我们要靠这个过程反过来优化均值方差的模型,但是“采样”这个操作是不可导的,而采样的结果是可导的。

2023-09-11 19:14:40 197

原创 秋叶启动器数据模型迁移指南

最近随着webui增加到1.6版本,很多问题也随之出现,其实最多就是插件问题,这多是由于插件太久没有更新维护导致,我更新之后主要是TemporalKit和wd1.4tag反推插件使用不了,TemporalKit用的有点顺手了,但是没人更新维护了,所以换成Ebsynth Utility了,本质上差不多,wd1.4tag现在秋叶大佬已经切换到一个在维护的分支了,所以也没问题了,其他问题基本没有。针对你们的问题我的解决方案。

2023-09-08 17:08:45 1696

原创 【CLIP详读】

OpenAI的CLIP项目自从推出以来,CLIP引起了广泛的关注。它的方法看似简单,但效果非常出色,许多结果令人惊叹。例如,预训练模型可以在任何视觉分类数据集上实现出色的效果,而且最重要的是,它具有零样本学习的能力,这意味着它无需在这些数据集上进行额外的训练,就能够表现出色。作者进行了大量实验,涵盖了30多个数据集,包括OCR、视频动作检测、坐标定位和许多细粒度分类任务。

2023-09-02 19:48:52 664

原创 最强嘴提o.o文字转语音

之后就等待处理完毕了,处理完了会显示按任意键继续,直接x掉终端,点击开始训练,输入训练轮数即可,可以先输入200,如果效果不好可以继续训练,千万不要点开始训练,会清空权重文件,继续训练输入300,就是在原来200基础上在训练100epoch。链接:https://pan.baidu.com/s/1cb24WW2dihtRpMz4giMxyw。来到界面,输入音频文件路径,和切分后的输出路径,其他不用动,点击start开始就行!点击开始推理,输入中文,点击生成,觉得可以就下载。解压密码:领航员未鸟。

2023-08-27 21:20:03 155

原创 图片换脸-->>视频换脸-->>直播换脸

参数,主要看第一个,可以选择人脸替换或者高清修复,也可以一起使用,接下来的参数基本都是多人识别相关的,从左到右,0为最左边,其他基本没什么改的,还有是否选择直播,目标视频为空,摄像头采集数据显示,不为空,替换你的目标视频显示。看看效果吧,这是视频的一帧,只能替换人脸,发型替换不了,所以我正在研究一个整体替换的软件。如果直播,勾选直播按钮,目标视频可以不写,直接点击生成,然后等待一会,别急就会出来了。第一个就是你要替换的人脸,第二行是被替换的对象,可以是图片,视频,参考:万能君的软件库。

2023-08-27 16:51:32 441

原创 【stable-diffusion使用扩展+插件和模型资源(下)】

2.GhostMix没有融任何Lora,Checkpoint应该主打的是兼容性,解决的是做的到的问题,而Lora是做的对的问题,GhostMix是对lora兼容性最强的模型,2D-3D都可以兼容。到此,准备工作完毕!来到webui,上传照片,声音(太长可能处理不了),右边的参数很少,就是选择分辨率,和裁剪方式,是否启用面部修复(效果不一定好),直接生成就行,推荐256,裁剪。就是比自带的预设多了很多选择,比如采样方法,种子,宽高等等,以往的预设只能保存正反向提示词,很多一些常用的基础设置并不能很好的保存。

2023-08-25 00:06:44 2082

原创 《修图大杀器》PS beta 25.0最新版安装(无需魔法)和Draggan(拖拽式修图)安装

这个时候你可能还无法使用创建式填充功能,如果是第一次安装ps,这个时候需要登录账户,点击右上角帮助,有个登录选项,记得一定得是美国地区注册的大于18岁的账户,节点挂到美国注册,登录完后会提示可以使用了,神经网络滤镜在滤镜Neural Filters选项下。pickle是权重文件加载目录,recently是选择加载checkpoint目录下的文件,0是种子,点击add point第一个点为红点,第二个为蓝点,然后start,就开始移动了,点击最下面可以保存图片,点击第二个应用程序,一直下一步就行,很简单。

2023-08-20 20:33:52 1105 1

原创 【无闪烁AI视频制作】

现在其实有很多的AI视频了,效果也越来越逼真,来看看都是怎么制作的吧!

2023-08-17 13:19:12 496 3

原创 SDXL1.0大模型安装与使用

使用 Stable Diffusion XL,您可以使用较短的提示创建描述性图像,并在图像中生成文字。该模型在图像生成功能方面取得了重大进步,提供了增强的图像合成和面部生成功能,从而产生令人惊叹的视觉效果和逼真的美感。(但是,可能是后续的事)更高水平的照片级写实能力图像合成和人脸生成使用较短的提示来创建描述性图像生成清晰文本的能力更强丰富的视觉效果和令人惊叹的美学。

2023-08-15 21:42:13 3653

原创 【 stable diffusion LORA模型训练最全最详细教程】

其实想写LORA模型训练很久了,一直没时间,总结一下现在主流的两种LORA模型训练方式,分别是朱尼酱的赛博丹炉和秋叶大佬的训练脚本,训练效果应该是赛博丹炉更好,我个人更推荐朱尼酱的赛博丹炉,界面炫酷,操作简单,作者也是花了很多心思的。我会逐一介绍两种LORA模型训练方法。全新U升级,赛博炼丹、科技修仙:大功能首页新增产品,建筑两个训川练预设:升级中英文双语TAG编辑器,支持实时翻译中英文输入TAG:新增自定义参数,正则化训川练集功能:新增自定义参数,分层训练功能:易用性。

2023-08-06 17:46:45 6213 3

原创 RVC实时变声器最新版

上次写的RVC变声器更新了,可能是用户的激增,原作者也更新的比较勤,本文只对变声器客户端更新使用教程,其他训练等等与上次一样。旧版教程。

2023-08-05 14:58:13 4749 2

原创 LORA模型原理详解+分层控制使用

LoRA模型全称是:Low-Rank Adaptation of Large Language Models,可以理解为Stable-Diffusion中的一个插件,仅需要少量的数据就可以进行训练的一种模型。在生成图片时,LoRA模型会与大模型结合使用,从而实现对输出图片结果的调整。假如一张图片是由背景,服饰,脸型,躯干,姿态等等组成,我们可以训练LORA模型对这些进行微调,在大模型的基础上微调成自己想要的图片。简单理解就是大模型基础上额外增加一些训练层,在冻住大模型的基础上,训练lora模型。

2023-06-29 19:26:02 9358 3

原创 ai绘画资源

资源。

2023-06-24 20:54:47 494

原创 【BATCHNORMALIZATION、LAYERNORMALIZATION、INSTANCENORMALIZATION和GROUPNORMALIZATION】

加上第 N 个样本第1个通道,求平均,得到通道 1 的均值(注意是除以 N×H×W 而不是单纯除以 N,最后得到的是一个代表这个 batch 第1个通道平均值的数字,而不是一个 H×W 的矩阵)。求通道 1 的方差也是同理。作者发现,在生成模型中, feature map 的各个 channel 的均值和方差会影响到最终生成图像的风格,因此可以先把图像在 channel 层面归一化,然后再用目标风格图片对应 channel 的均值和标准差“去归一化”,以期获得目标图片的风格。

2023-06-12 15:30:59 220

原创 【AI实时变声器,声音甜甜的小姐姐背后竟是抠脚大汉】

这是一款基于AI算法的实时变声器,如果你不懂AI也没事,直接使用我提供的一键安装包

2023-06-07 19:44:52 3249 5

原创 stable diffusion图片资源分享和模型推荐,好用的模型有哪些呢?

这篇文章主要是分享我的图片和推荐一些好用的模型,模型不在多在于精,基于几个好的大模型适当下载一下LORA模型,就能画出非常好的图片,多话不说。

2023-06-07 16:23:02 4046

原创 【stable diffusion原理解读通俗易懂,史诗级万字爆肝长文,喂到你嘴里】

stable diffusion作为Stability-AI开源图像生成模型,其出现也是不逊于ChatGPT,其发展势头丝毫不差于midjourney,加上其众多插件的加持,其上线也是无线拔高,当然,手法上也稍微比midjourney复杂点。论文源码至于为什么开源,**创始人:我这么做的原因是,我认为这是共同叙事(shared narrative)的一部分,有人需要公开展示发生了什么。再次强调,这应该默认就是开源的。

2023-06-04 16:23:14 5261 2

原创 【mmcv安装使用】

MMLab是香港中文大学深圳研究院的一个计算机视觉和深度学习研究团队,由教授陈嘉杰(Jiajie Chen)领导。该团队成立于2017年,致力于图像识别、目标检测、语义分割、人脸识别等领域的研究。MMLab开发了许多开源的深度学习工具包和算法,如PyTorch中的Detectron2、mmdetection、mmcv等,这些工具包和算法在学术界和工业界都有广泛的应用。MMLab的研究成果在计算机视觉领域享有很高的声誉,团队成员也经常在国际计算机视觉顶级会议上发表论文和做报告。

2023-05-24 16:20:51 5244 1

原创 【stable diffusion保姆级教程,左手ChatGPT之剑,右手stablediffusion之矛】

哈喽,大家好,我是Tian-Feng,前面写过两篇文章,但是细节没认真写,除了介绍一些参数意思,和推荐模型插件,有一定基础的小伙伴应该是挺有用的,但如果是小白,可能还是懵懵懂懂,于是写下这篇简单无脑教程,我会用一个画图方法涵盖多方面,一力降十会,其实正常一两个操作就够用了对于大多数来说,比较我们也不是专业画图。教程非常简单,基本只要会玩电脑就行。stable-diffusion插件和模型推荐​stable diffusion 小白最全详细安装使用教程。

2023-05-23 12:16:23 1198

原创 【stable-diffusion史诗级讲解+使用+插件和模型资源】

本文介绍一些常用的插件,很适合新手宝宝,还有推荐一些大模型,已经绘图的一些技巧,希望对你们有帮助。

2023-05-18 16:08:29 3961 1

原创 YOLO_V7

yoloV7是一种目标检测算法,它是在yoloV5的基础上进一步改进而来的。相比于yoloV5,yoloV7在网络结构、数据增强和激活函数等方面都进行了优化,可以提高模型的表达能力和检测精度。网络结构:yoloV7采用了更深的网络结构,包含更多的卷积层和残差块,可以提高模型的表达能力和检测精度。数据增强:yoloV7引入了更多的数据增强方法,如随机裁剪、随机旋转等,可以增加训练数据的多样性,提高模型的鲁棒性。

2023-05-16 20:21:24 839

原创 chagpt

首发网站 天风的人工智能小站https://chat.openai.com/auth/login验证邮箱输入姓名因为openAI不对中国开放所以,必须要购买一个外国虚拟号码进行验证,如何购买呢,看下图https://sms-activate.org/cn/getNumber# 首先我们需要充值(右上角余额处),一美金就够买多次了,一般一次10美分左右,支持支付宝充值。第一步选一个国家,第二输入openAI,第三步买入,右边获取号码界面出现你买入的号码然后返回号码验证处把你的号码输入,注意一般是不用加前缀

2023-05-16 13:11:59 629

原创 realESR-GAN(超分辨率重建)

CSRGAN(Compressed Sensing with Regularization Generative Adversarial Network)是一种基于生成对抗网络(GAN)和压缩感知(CS)的图像超分辨率(SR)算法。它通过学习图像的稀疏表示来实现超分辨率重建,并使用生成对抗网络来提高重建图像的视觉质量。相较于其他传统的图像超分辨率算法,CSRGAN 在保持图像细节和纹理的同时,还能够有效地减少重建图像中的伪影和噪声。

2023-05-14 19:01:53 1371 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除