整理一下最近了解到的AIGC工具

前言

好久没有写csdn博客了,突然不知道写点什么,最近AIGC真的很火,有一种三天不看就跟不上发展趋势的感觉,让人又激动又有点慌😂。这里我简单整理一下最近看到的AIGC的一些内容,后续如果有需要我详细描述一下如何使用。

AIGC类型

AIGC现在发展可以说是‘坐地日行八万里’了,总的来说我将目前技术较为成熟的AIGC工具大概分为三种类型,图像生成类,文本生成类,语音生成类,这三类目前均有不同程度的应用:

  1. 图像生成类 : Stable diffusion,Midjourney,DALL·E 2,DeepFloyd IF等;
  2. 文本生成类:Chat GPT,auto-GPT,GPT-4等;
  3. 语音生成类:So-vits-svc 4.0;
    下面就每一类工具,我大概描述一下他们的功能及优势劣势的比较,如有大家有兴趣我会详细讲解。

图像生成类

Stable diffusion

Stable Diffusion是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。目前已有大神将SD打包为本地可直接使用的工具(绘世 sd-webui),通过这个工具我们可以通过网页可视化,便捷使用文生图,图生图。
启动界面
这就是启动界面,只需要输入正向及反向prompt,调整类似图像大小,迭代步数等就可以生成各种不同类型的图像。同时还可以通过加载不同的lora及controlnet等模型来进行微调,生成自己需要的图案。
在这里插入图片描述
在这里插入图片描述

Midjourney

MidJourney 是一个文本到图像的在线服务AI,创始人是David Holz,它可以根据您的文本提示生成华丽的视觉效果。MidJourney 更喜欢用互补的颜色、光影的艺术运用、清晰的细节以及具有令人满意的对称性或透视性的构图来创建图像。

![在这里插入图片描述](https://img-blog.csdnimg.cn/155dbdd8918b4e669c1abcefd68d8b78.png在这里插入图片描述
#pic_center)
在这里插入图片描述

DALL·E 2

DALL-E 2由OpenAI开发,它通过一段文本描述生成图像。其使用超过100亿个参数训练的GPT-3转化器模型,能够解释自然语言输入并生成相应的图像。
在这里插入图片描述
在这里插入图片描述

三种工具比较

在这里插入图片描述
以上比较为个人观点,如有补充会进行修改。

DeepFloyd IF

这个是stability.ai/团队最新作品,据官方介绍,DeepFloyd IF 是最新最先进的开源文本-图像模型,拥有强大的语言理解能力,生成的图像具有高度真实感。从其官网展示了图像来看,DeepFloyd IF 生成的图像质量非常不错,也能处理多种不同的风格效果。能在图像中生成连贯清晰的文本,以及理解不同对象的属性和空间关系。比如它可以正确地将文字呈现在路牌、纸片、包装外壳等规定的媒介内;能理解文本之间的连续关系,将不同的字母或数字按顺序呈现在不同的物体上;以及分清圆球是金属的,三角形是毛茸茸的,不会将不同物体的属性弄混。
在这里插入图片描述
在这里插入图片描述

文本生成

文本生成领域现在chatgpt、autogpt和gpt4目前正在大热。目前针对chat gpt及gpt-4网络上已经有很多相关体验结果及解析,这里对三个gpt模型进行一下对比。
chat GPT和GPT-4均为OpenAI公司开发的自然语言处理模型,gpt4和chatgpt的区别在于gpt4可以处理图像内容,可以更正确的理解信息和处理问题,且回复的准确性提高不少;chatgpt不支持图像内容处理,有时还会出现错误或者矛盾的回答。此外,GPT-4支持图文语义化的解读,以及更好的回答组织能力,而chatgpt则带来了AI对语义理解的突破。
Auto-GPT 的运作方式与 ChatGPT 相同,但增加了运动功能。它将大型语言模型指令链接在一起,以实现指定的结果。该工具具有一定的决策权,可以让AI自我提示。
在这里插入图片描述

语音生成

So-vits-svc 4.0

B站大佬已经将该算法工具化,类似于sd-webui,通过可视化就可以完成语音训练及推理。
在这里插入图片描述
具体效果大家可以看B站很多AI翻唱,很让人惊艳,后续我会将各个工具的具体用法进行介绍。

结尾

以上是我的一点总结,目前AIGC工具及算法日新月异,发展很快,我总结的一些东西在我下笔的那一刻可能就已经过时了。学无止尽,能亲身经历人工智能的发展,真的是幸事。另外,给自己打个广告,有没有做这个的一起玩儿啊😂。

下面是一些工具链接
Stable diffusion,Midjourney,DALL·E 2,DeepFloyd IF等;
2. 文本生成类:Chat GPT,auto-GPT,GPT-4等;
3. 语音生成类:So-vits-svc 4.0;
[1]: sd-webui :https://github.com/AUTOMATIC1111/stable-diffusion-webui
[2]: Midjourney:https://www.midjourney.com/home/
[3]: DALL·E 2:https://labs.openai.com/
[4]:DeepFloyd IF:https://deepfloyd.ai/deepfloyd-if
[5]:Chat GPT:https://chat.openai.com/
[6]:auto-GPT:https://github.com/Significant-Gravitas/Auto-GPT
[7]:GPT-4:https://openai.com/product/gpt-4
[8]: So-vits-svc 4.0:https://github.com/voicepaw/so-vits-svc-fork/blob/main/README_zh_CN.md

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值