- 博客(57)
- 资源 (2)
- 收藏
- 关注
原创 Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
Moonshine 是由 Useful Sensors 公司推出的一系列「语音到文本(speech-to-text, STT)转换模型」,旨在为资源受限设备提供快速而准确的「自动语音识别(ASR)服务」。相比同类产品,如 OpenAI 的 Whisper,Moonshine 在处理速度上提高了五倍,并且在多个标准数据集上展示了更低的词错误率(WER)。据官方报告,Moonshine 的处理速度「比 OpenAI 的 Whisper 快五倍」,并且在词错误率方面也表现得更好。,期待后期更多语种的支持。
2024-11-07 17:37:04 114
原创 UltraPixel - 华为开源超大分辨率文生图模型 支持直接生成6K图像 本地一键整合包下载
UltraPixel是一种由华为诺亚方舟实验室联合香港科技大学共同开发的超高清图像合成架构,旨在生成具有丰富细节的高质量图像,其分辨率可以从1K一直延伸至6K。一个充满活力的动漫场景,一个年轻女孩长着飘逸的粉红色头发,一双闪闪发光的蓝色大眼睛,穿着校服,站在樱花树下,花瓣飘落在她周围。一位年轻女子的特写照片,她拥有完美的皮肤,鲜艳的红色口红,棕色卷发,穿着复古碎花连衣裙,站在盛开的花园前。一间舒适的乡村木屋坐落在白雪覆盖的森林里,石头烟囱里冒着烟,窗户里透出温暖的灯光,还有一条通往前门的脚印。
2024-10-18 15:32:31 304
原创 GOT-OCR-2-GUI - 一个强大的AI文本识别模型 OCR文字识别 图片文字识别 本地一键整合包下载
GOT-OCR-2.0 是一个基于通用 OCR 理论(General OCR Theory)的统一端到端模型,专注于提升光学字符识别(OCR)的准确性与效率。GOT-OCR 2.0 不仅支持场景文本识别,还能处理多页文档,为 OCR 领域带来更多灵活性。有了这个软件,大家不用再去苦苦寻找免费的ORC识别软件了,很多软件接口不稳定,随时可能失效。有了这个软件,本地一键运行,无需联网,永久免费。今天分享的就是GOT-OCR的GUI版本,支持的场景比如文本、文档、乐谱、图表、数学公式等内容识别。
2024-10-18 12:27:18 655
原创 PMRF - 高质量人像超清修复、人脸逼真高清修复 一键整合包下载
处理复杂的图像退化问题:PMRF能够应对各种复杂的图像退化情况,包括噪声、模糊、分辨率降低、颜色丢失等问题,生成视觉质量高且符合真实图像分布的恢复图像。不论图片内容有多复杂,比如细节丰富的面部图像,还是受到多重损坏的图片,PMRF都能很好地处理,并提供优质的修复结果。降低图像失真(MSE):PMRF通过后验均值预测实现图像恢复,最小化图像的均方误差(MSE),确保生成的图像与真实图像在数值上尽可能接近,失真尽可能小。图像恢复:处理去噪、超分辨率、盲图像恢复和图像修复等任务,生成自然逼真的图像。
2024-10-15 15:36:21 432
原创 Pyramid Flow - 快手联合北大、北邮开发的文生视频AI模型 最高 10 秒 768P@24fps 本地一键整合包下载
10月12日上午,快手和北京大学及北京邮电大学的研究团队共同开源了Pyramid-Flow的超高清视频生成模型。目前支持两种分辨率模型生成,一种640x384,另一种1280x768。我们建议在文本到视频生成期间对 768p 模型使用 [7, 9] ,对 384p模型使用 7 中。相比之前的 CogVideoX ,Pyramid Flow的生成速度更快,资源占用更低。对于 10 秒视频生成,我们建议使用引导系数 7 和 视频引导系数 5。(测试了CPU卸载,速度太慢了,所以低于12G显存的卡就别尝试了)
2024-10-15 08:30:35 247
原创 FireRedTTS - 小红书最新开源AI语音克隆合成系统 免训练一键音频克隆 本地一键整合包下载
FireRedTTS 只需要给定文本和几秒钟参考音频,无需训练,就可模仿任意音色、任意说话风格,创造独特的音频内容。搞怪风、女友风、emo 小片段……同时,除运用 FireRedTTS 的能力进行多音色、中英混杂的「整花活」之外,FireRedTTS 还能够生成具有小红书博主风格的高级感旁白,少年博主音颇具特色,将听众拉入即将离去的夏天。小红书技术团队FireRed最近推出了一款名为FireRedTTS的先进语音合成系统,该系统能够基于少量参考音频快速模仿任意音色和说话风格,实现独特的音频内容创造。
2024-10-02 17:23:00 918
原创 Diffusers Image Outpaint - AI一键扩图工具 本地整合包下载
Diffusers Image Outpaint 是一个基于扩散模型的图像外延技术,它能够根据已有的图像内容,生成图像的额外部分。
2024-09-26 17:22:43 648
原创 HivisionIDPhoto V3 - AI一键智能制作生成高清证件照 新增分享模版照、美颜等功能 本地一键整合包下载
HivisionIDPhoto V3 - AI一键智能制作生成高清证件照 新增分享模版照、美颜等功能 本地一键整合包下载
2024-09-24 09:57:55 484
原创 EDTalk - 支持自定义情感的AI数字人、对口型、唇形同步项目 本地一键整合包下载
只需一个简单的输入,即可让静态的人像“开口说话”,且每一个细微的表情变化都贴合语境情绪,为虚拟人物赋予生动的灵魂。EDTalk 的应用潜力无限广阔,从个人数字助理的个性化定制,到影视后期制作中的角色对话合成,乃至教育软件的互动教学助手开发,都能见到它的身影。该项目的核心在于其高效的解耦训练机制,这使得EDTalk能在保持高精度的同时,快速地将面部特征(如口型、头部姿势和表情)从复杂的视频数据中分离出来,并整合新的情感信号。和以往类似项目不同的是,EDTalk还支持自定义情感,比如高兴、愤怒、悲伤等。
2024-09-12 14:08:28 411
原创 CatVTON - AI一键换装、虚拟试衣、一键虚拟换装工具 本地整合包下载
CatVTON是一个小型的AI虚拟换衣模型,由是由美图、中山大学、鹏城实验室共同开发,适合每一个时尚爱好者使用。CatVTON 的特点是拥有轻量级网络,总共有899.06M 的参数,训练时只需要49.57M 的可训练参数。而且在进行推理时,使用的显存少于8G,支持1024x768的高分辨率,非常适合个人电脑进行操作。
2024-09-10 15:20:35 461
原创 HivisionIDPhoto V2 - AI一键智能制作生成证件照 新增抠图模型,优化抠图效果 本地一键整合包下载
HivisionIDPhoto是一种实用的证件照智能制作算法。它利用一套完善的模型工作流程,实现对多种用户拍照场景的识别、抠图与证件照生成。
2024-09-07 10:12:08 470
原创 Easy Voice Toolkit - 简易语音工具箱,一款强大的语音识别、转录、转换工具 本地一键整合包下载
Easy Voice Toolkit 是一个基于开源语音项目实现的简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具,集成了GUI,无需配置,解压即用。
2024-09-05 09:13:55 478
原创 audiocraft - 免费文本转音乐、AI音乐生成、AI音乐创作工具,Facebook开源,本地一键整合包下载
这个强大的工具包集成了两个最新的AI音频生成模型:AudioGen和MusicGen,能够产生高质量的声音和音乐。如果你的显卡较好,显存12G起,推荐facebook/musicgen-stereo-melody和facebook/musicgen-stereo-melody-large这两个模型,生成的效果是最好的。考虑到一键包大小,一键包只内置了 facebook/musicgen-stereo-melody 这个模型,如果需要体验其他模型,只需要切换到任意模型,提交的时候后台会自动下载。
2024-08-31 22:27:22 776
原创 LivePortrait V4版:新增图片驱动图片,一张照片生成生动视频、表情包,精准操控五官,本地一键整合包下载
今天的V4版一键包在官方8月19日发布的最新版做了更新,在原有图片驱动视频、视频驱动视频的基础上,新增了图片驱动图片。这样就可以实现表情神同步了,表情包制作功能更丰富了。
2024-08-27 14:38:15 420
原创 LivePortrait V3版:新增精确的肖像编辑,精准操控五官比如眉毛鼻子摇头眨眼撇嘴等,本地一键整合包下载
今天的V3版一键包在官方8月9日发布的最新版做了更新,新增精确的肖像编辑,人像重定向功能在原有的抬头低头等编辑的基础上,新增了X/Y/Z轴运动
2024-08-16 10:46:04 847
原创 FLUX.1 WebUI本地整合包,基于nf4轻量化模型的Stable Difussion WebUI Forge,6G显存可玩
今天发布的这个FLUX.1的WebUI就是基于Stable Difussion WebUI forge,模型是nf4量化版轻量模型,nf4比nf8在更小的体积下,实现了比nf8更好的生成效果,实测6G显存可玩,20步出图大概在30秒左右
2024-08-14 21:37:51 2778
原创 【AI语音克隆】GPT-SoVITS V2版,业界最强的AI声音克隆软件、文本转语音工具,新增两种新语种,更强的V2模型
【AI语音克隆】GPT-SoVITS V2版,业界最强的AI声音克隆软件、文本转语音工具,新增两种新语种,更强的V2模型
2024-08-10 17:01:01 1104
原创 最近很火的FLUX.1文生图模型本地一键整合包SwarmUI,schnell量化版,6G显存可畅玩的FLUX.1
最近一个新的文生图模型突然火出圈,它就是由Black Forest Labs(黑森林实验室)团队开发的FLUX.1。
2024-08-09 17:17:18 1337
原创 LivePortrait V2版:新增动物模式,支持动物表情迁移。一张照片生成生动视频,精准操控眼睛和嘴唇动作 本地一键整合包下载
今天的一键包在官方8月2日发布的最新版做了更新,新版主要新增了动物模式,可以驱动动物做任何表情同步操作了。而且新增了更多实用的图片和视频生成功能。因为更新的地方较多,所以这次没法做升级包,只提供完整的一键包。
2024-08-05 16:41:09 785
原创 Diffree - AI一键P图,告别P图困扰,只需要输入一段文字就能轻松玩转P图的神器 本地一键整合包下载
用一句话就能神器在照片中变出新物品。比如,在一个阴天的夜晚拍了一张很美的风景,但是,当天没有月亮,很是遗憾。传统的软件需要找一张月亮的素材,抠出来,然后在添加到风景照片里。还要调节各种色相饱和度。
2024-07-31 14:16:39 525
原创 EasyAnimate - 阿里开源视频生成项目,国产版Sora,高质量长视频生成 本地一键整合包下载
EasyAnimate是阿里云人工智能平台PAI自主研发的DiT-based视频生成框架,它提供了完整的高清长视频生成解决方案,包括视频数据预处理、VAE训练、DiT训练、模型推理和模型评测等
2024-07-28 15:31:54 787
原创 FoleyCrafter - AI视频自动配音黑科技,让无声视频瞬间拥有逼真配音 本地一键整合包下载
FoleyCrafter 是一个开源基于文本的视频到音频生成框架,可以自动为无声视频生成清晰、逼真的声音效果,而且声音与视频内容完全匹配。它能够理解视频的语义内容,自动匹配适合的声音,比如视频里有狗,FoleyCrafter就会生成狗叫声,而且确保声音和视频是同步的。FoleyCrafter确保声音与视频的同步性门被关上的瞬间,那“砰”的一声也在同一时刻响起。这种精确的同步,让视听体验更加沉浸和真实。
2024-07-23 14:47:29 573
原创 EasyPhoto - 一键训练并生成人像写真,支持参考图生成 独立版 本地一键整合包下载
EasyPhoto是一款工具,用于生成AI肖像画,该代码可用于训练与您相关的数字分身。建议使用 5 到 20 张肖像图片进行训练,最好是半身照片且不要佩戴眼镜(少量可以接受)。训练完成后,我们可以在推理部分生成图像。我们支持使用预设模板图片与上传自己的图片进行推理。
2024-07-17 21:06:11 868
原创 MimicMotion - 一张图片实现视频跳舞,腾讯开源照片跳舞模型 本地一键整合包下载
近期,腾讯联合上海交通大学开源了一个可控视频生成框架:MimicMotion,类似阿里的全民舞王,只需要上传一张照片,然后再上传一段人物的舞蹈或者动作视频,就可以生成以照片中人物为原型的动作或者舞蹈视频了。
2024-07-16 14:55:00 1977
原创 DDColor - 黑白老照片一键AI上色工具,找回“失色“的记忆,老照片一键“回春” 本地一键整合包下载
DDColor 是一个由阿里达摩院研究的基于深度学习技术的图像上色模型,主要用于黑白照片的修复和上色。它能够自动将黑白或灰度图像着色,使图像更加生动逼真。
2024-07-15 09:03:33 489
原创 HyperSD - 会画草图就能玩AI绘画,AI一键手绘,实时同步 本地一键整合包下载
字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD,是一项在图像处理和机器学习领域的重要进展。这项技术通过创新的方法提升了模型在不同推理步骤下的性能,同时保持了模型大小的精简。基于这个算法模型,一个很实用的功能出现了,就是实现一键手绘插画的功能,几乎实现了实时生成图片的功能。即会画画,就能玩AI绘画了
2024-07-13 19:44:30 480
原创 EchoMimic - 一张照片生成说话视频,可用于AI数字人生成,阿里最新开源 本地一键整合包下载
EchoMimic是阿里巴巴达摩院推出的一个AI驱动的口型同步技术项目。这项技术能够通过给定的音频和一张或多张人物的面部照片,生成一个看起来像是在说话的视频,其中的人物口型动作与音频中的语音完美匹配。这种技术在娱乐、教育、虚拟现实、在线会议等领域有广泛的应用前景,可以用于创建更加真实和互动的视频内容。
2024-07-12 14:18:37 3378
原创 PaintsUndo - 一张照片一键生成绘画过程视频 本地一键整合包下载
这就是ControlNet作者张吕敏大佬的新作,PaintsUndo。只要你有一张图片,PaintsUndo 就能让它变成完整的绘画过程视频。这科技,绝了。
2024-07-11 20:22:43 586
原创 CosyVoice升级版 - 阿里最新开源语音克隆、文本转语音项目 支持音色保存 本地一键整合包下载
近日,阿里通义实验室发布开源语音大模型项目FunAudioLLM,而且一次包含两个模型:SenseVoice和CosyVoice。今天分享的这个是v3ucn大佬优化过的升级版,新增自定义音色保存,优化长文本生成以及修复上个版本错误提示的bug。
2024-07-10 13:31:01 2036
原创 SenseVoice - 阿里最新开源精准多语言语音识别与情感辨识模型 本地一键整合包下载
阿里巴巴近期发布了开源语音大模型项目FunAudioLLM,该项目包含了两个核心模型:SenseVoice和CosyVoice。可以精准多语言识别并且进行语音克隆
2024-07-09 15:32:02 1153
原创 CosyVoice - 阿里最新开源语音克隆、文本转语音项目 支持情感控制及粤语 本地一键整合包下载
CosyVoice专注自然语音生成,支持多语言、音色和情感控制,支持中英日粤韩5种语言的生成,效果显著优于传统语音生成模型。
2024-07-07 21:19:42 10813 1
原创 LivePortrait:一张照片生成生动视频,精准操控眼睛和嘴唇动作 本地一键整合包下载
LivePortrait,这个名字听起来就像是魔法,但它其实是现实世界中的黑科技。想象一下,你那尘封已久的相册里,那些定格在时间里的笑脸,突然间动了起来,眨眼、微笑、甚至说话,这不再是电影里的场景,LivePortrait让它变成了现实。
2024-07-06 07:36:41 921
原创 AI一键音频转文字工具 速度超快,支持实时转换,无需联网,本地整合包下载
这是 CapsWriter-Offline ,一个 PC 端的语音输入、字幕转录工具。可用实现简单一键将音频文件转换成文字的懒人工具。
2024-07-03 09:36:32 927
原创 ProPainter – AI视频去水印工具,可以去除视频中的静态水印、动态物体/人物等 本地一键整合包下载
ProPainter是一个基于E2FGVI实现的AI视频编辑工具,它可以一键移除视频内的移动物体和水印。这个开源项目提供了一个简单而强大的解决方案,帮助用户轻松编辑和改善视频内容。
2024-06-29 15:17:22 1248
原创 DCT-Net - 一键图片、视频转卡通动漫风格工具,本地一键整合包下载
只需要输入一张人物图像或者一段视频,就可以实现端到端全图卡、视频通化转换,生成二次元虚拟形象,返回卡通化后的结果图像或视频。
2024-06-25 16:33:48 359
原创 Arc2Face - 一张图生成逼真的多风格人脸,本地一键整合包下载
Arc2Face是用于人脸的基础模型训练,可批量生成超高质量主题的AI人脸艺术风格照,完美复制人脸。只需一张照片,几秒钟,即可批量生成超高质量主题的AI人脸艺术风格照,完美复制人脸。
2024-06-24 17:44:09 468
原创 AudioSep:从音频中分离出特定声音(人声、笑声、噪音、乐器等)本地一键整合包下载
AudioSep是一种 AI 模型,可以使用自然语言查询进行声音分离。这一创新性的模型由Audio-AGI开发,使用户能够通过简单的语言描述来分离各种声音源。
2024-06-22 16:38:15 1508
原创 阿里AI图片编辑新项目,人人都可做设计师。MimicBrush本地一键整合包下载
最近阿里巴巴联合香港大学开源了一个创新图像编辑工具:MimicBrush,这个工具相当于是一个局部重绘工具。它通过先进的AI技术,能够将一张图片的某一部分融合到另一张图片上。
2024-06-21 11:09:29 583
原创 Stable Audio Tools - 会打字就能搞音乐创作,AI音频生成工具,一键生成任意背景音乐 本地一键整合包
Stable Audio Tools是Stability AI 推出的AI生成音乐平台,你只需要输入描述性文本提示以及所需的音频长度(最长支持512秒即8分钟)即可生成高质量的音乐和音效。
2024-06-13 09:09:36 1135
原创 ChatTTS改良版 - 新增精选高品质音色,新增超长文本推理,新增api接口
民间玩家QuantumDriver 多次把玩,从抽卡音色中精选了几种高质量的音色,类似其他TTS项目的命名角色,比如魅力小姐姐、成熟大叔、阳光大男孩,贴心女宝等银色,经过多次测试,音色质量都是非常出色的。
2024-06-10 10:42:57 1636
班迪录屏 Bandicam 中文便携特别版
2022-04-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人