刘悦的技术分享-CSDN博客

原创 m4 mac mini本地部署ComfyUI,测试Flux-dev-GGUF的workflow模型10步出图,测试AI绘图性能,基于MPS(fp16),优点是能耗小和静音

m4 mac mini已经发布了一段时间，针对这个产品，更多的是关于性价比的讨论，如果抛开各种补贴不论，价位上和以前发布的mini其实差别不大，真要论性价比，各种windows系统的mini主机的价格其实是吊打苹果的。本次我们针对m4 mac mini的AI性能做个测试，使用目前泛用性最广的AI工作流软件:ComfyUI框架，基于MPS(fp16)模式进行测试。

2024-12-08 23:48:03 4593 1

原创使用腾讯混元(HunYuanVideo)视频模型FP8量化版本来生成绅士动画,模型体积30G,8G甜品卡可玩,2秒视频需要15分钟

腾讯混元(HunYuanVideo)视频模型发布以来，视频效果有口皆碑，但由于推理门槛比较高，消费级显卡用户望而却步，最近大神Kijai发布了FP8量化版本模型，使得甜品卡用户也有了一餐秀色的可能。本次我们利用HunYuanVideo量化版模型来生成绅士视频。

2024-12-08 21:09:15 4816

原创 MagicQuill,AI动态图像元素修改,AI绘图,需要40G的本地硬盘空间,12G显存可玩,Win11本地部署

最近由 magic-quill 团队开源的 MagicQuill 项目十分引人瞩目，这个项目可以通过定制的 gradio 客户端针对不同的图像元素通过提示词进行修改，从而生成新的图像。值得一提的是，这个项目相当亲民，只需要20步迭代模型预测，甜品卡10秒钟就可以获取图片的修改效果，但是代价是至少需要40个G左右的磁盘空间。

2024-11-21 20:38:25 2752

原创 MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音

前几天，又一款非自回归的文字转语音的AI模型：MaskGCT，开放了源码，和同样非自回归的F5-TTS模型一样，MaskGCT模型也是基于10万小时数据集Emilia训练而来的，精通中英日韩法德6种语言的跨语种合成。数据集Emilia是全球最大且最为多样的高质量多语种语音数据集之一。本次分享一下如何在本地部署MaskGCT项目，让您的显卡再次发烧。

2024-10-28 17:29:29 4024 2

原创 Python3.11二进制AI项目程序打包为苹果Mac App(DMG)-应用程序pyinstaller制作流程(AppleSilicon)

众所周知，苹果MacOs系统虽然贵为Unix内核系统，但由于系统不支持N卡，所以如果想在本地跑AI项目，还需要对相关的AI模块进行定制化操作，本次我们演示一下如何将基于Python3.11的AI项目程序打包为MacOS可以直接运行的DMG安装包，可以苹果系统中一键运行AI项目。

2024-08-25 18:13:36 3338

原创 Win11不在C盘安装WSL2(Linux环境),安装Nvidia驱动和默认使用Win11的网络代理服务

众所周知，WSL 2 为 Windows 用户提供了一个强大、高效且灵活的 Linux 环境，特别适合开发者使用。它结合了 Windows 和 Linux 的优点，为用户提供了更加全面和高效的工作环境。但缺点也很明显，那就是默认安装在本来空间就不富裕的C盘。本次我们在非C盘的盘符快速安装基于wsl2的linux开发环境，并且无痛使用Win11的网络代理服务。

2024-08-02 17:25:46 2870

原创 CosyVoice多语言、音色和情感控制模型，one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源

平心而论，CosyVoice不愧是大厂出品，模型的品质没的说，代表了国内AI的最高水准，通义实验室名下无虚，当然，如果能将工程化之后的代码也开源出来，那就更好了，相信经过libtorch的优化，这个模型将会是开源TTS的不二选择。

2024-07-07 18:09:11 7774 7

原创 ChatTTS,语气韵律媲美真人的开源TTS模型,文字转语音界的新魁首,对标微软Azure-tts

前两天 2noise 团队开源了ChatTTS项目，并且释出了相关的音色模型权重，效果确实非常惊艳，让人一听难忘，即使摆在微软的商业级项目Azure-tts面前，也是毫不逊色的。 ChatTTS是专门为对话场景设计的文本转语音模型，例如大语言助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。目前在huggingface中的开源版本为4万小时训练且未SFT的版本。本次分享一下如何在本地部署ChatTTS项目。

2024-05-31 17:03:28 3977 1

原创 GPT-SoVITS教程,接入酒馆AI,SillyTavern-1.11.5,让AI女友声若幽兰

本次分享一下如何将GPT-SoVITS接入SillyTavern-1.11.5项目，让让AI女友声若幽兰，首先明确一下，SillyTavern-1.11.5只是一个前端项目，它没有任何大模型文本生成能力，所以后端必须有一个api服务来流式生成对话文本，这里选择koboldcpp。

2024-03-26 14:05:52 6447 1

原创遭遇DDOS攻击忍气吞声？立刻报警！首都网警重拳出击，犯罪分子无所遁形

公元2024年2月24日18时许，笔者的个人网站突然遭遇不明身份者的DDOS攻击，且攻击流量已超过阿里云DDos基础防护的黑洞阈值，服务器的所有公网访问已被屏蔽，由于之前早已通过Nginx屏蔽了所有国外IP，在咨询了阿里云客服之后，阿里网安的老同事帮助分析日志并进行了溯源，客服建议笔者选择立刻报警处理！

2024-02-26 10:46:52 3442

原创苹果AppleMacOs最新Sonoma系统本地训练和推理GPT-SoVITS模型实践

GPT-SoVITS是少有的可以在MacOs系统下训练和推理的TTS项目，虽然在效率上没有办法和N卡设备相提并论，但终归是开发者在MacOs系统构建基于M系列芯片AI生态的第一步。

2024-02-22 10:43:54 3783

原创自然语言开发AI应用,利用云雀大模型打造自己的专属AI机器人

如今，大模型层出不穷，这为自然语言处理、计算机视觉、语音识别和其他领域的人工智能任务带来了重大的突破和进展。大模型通常指那些参数量庞大、层数深、拥有巨大的计算能力和数据训练集的模型。但不能不承认的是，普通人使用大模型还是有一定门槛的，首先大模型通常需要大量的计算资源才能进行训练和推理。这包括高性能的图形处理单元（GPU）或者专用的张量处理单元（TPU），以及大内存和高速存储器。说白了，本地没N卡，就断了玩大模型的念想吧。

2024-02-02 11:55:48 4449

原创离线生成双语字幕,一键生成中英双语字幕,基于AI大模型,ModelScope

制作双语字幕的方案网上有很多，林林总总，不一而足。制作双语字幕的原理也极其简单，无非就是人声背景音分离、语音转文字、文字翻译，最后就是字幕文件的合并，但美中不足之处这些环节中需要接口api的参与，比如翻译字幕，那么有没有一种彻底离线的解决方案？让普通人也能一键制作双语字幕，成就一个人的字幕组？

2024-01-29 10:51:48 5005 1

原创 Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过FunAsr，但是经过中文特殊优化的Whisper就未必了。

2024-01-25 14:23:32 5094

原创龙蛇入笔,身不由己,码农出书以及无法控制的表达欲

拙著《Tornado（龙卷风）编程实战》结集付梓，自惟庸陋，略為芹献，积年咳唾，不入方家，聊供诸君一哂。这本书以异步框架Tornado为基底，透过一个完整的项目阐释异步框架结合Vue.js如何实现一个低成本的前后端分离架构。项目内涉及的知识点涵括：Web3.0、数据库、设计模式落地、算法和数据结构落地、跨境支付、全文检索、Websocket、以及当下时新的ChatGPT和深度学习等技术，最后以K8S部署收尾。 Tornado框架在开发者社区中有一定的知名度和使用率，但确实没有专门为Tornad

2024-01-22 12:33:41 3662 2

原创如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face

Hugging Face是一个机器学习（ML）和数据科学平台和社区，帮助用户构建、部署和训练机器学习模型。它提供基础设施，用于在实时应用中演示、运行和部署人工智能（AI）。用户还可以浏览其他用户上传的模型和数据集。Hugging Face通常被称为机器学习界的GitHub，因为它让开发人员公开分享和测试他们所训练的模型。本次分享如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face。

2024-01-15 09:18:19 5531

原创中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

君不言语音识别技术则已，言则必称Whisper，没错，OpenAi开源的Whisper确实是世界主流语音识别技术的魁首，但在中文领域，有一个足以和Whisper相颉顽的项目，那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraformer非自回归端到端语音识别模型，它具有高精度、高效率、便捷部署的优点，支持快速构建语音识别服务，最重要的是，FunASR支持标点符号识别、低语音识别、音频-视觉语音识别等功能，也就是说，它不仅可以实现语音转写，还能在转写后进行标注，一石二鸟。

2024-01-10 17:19:11 5180 1

原创如何在GitHub正确提PR(Pull Requests),给喜欢的开源项目贡献代码

最好的中文TTS项目Bert-vits2更新了中文特化分支，但可能由于时间仓促，代码中存在不少的bug，作为普通用户，有的时候也想为自己喜欢的开源项目做一点点贡献，帮助作者修改一些简单的bug，那么该如何开始？本次我们以Bert-vits2项目为例子，分享正确提交PR(Pull Requests)的方式。

2024-01-07 12:58:44 4493

原创首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法

Bert-vits2项目又更新了，更新了一个新的分支：中文特化，所谓中文特化，即针对中文音色的特殊优化版本，纯中文底模效果百尺竿头更进一步，同时首次引入了大模型，使用国产IDEA-CCNL/Erlangshen-MegatronBert-1.3B大模型作为Bert特征提取，基本上完全解决了发音的bad case，同时在情感表达方面有大幅提升，可以作为先前V1.0.1纯中文版本更好的替代。

2024-01-06 23:05:42 4300

原创字正腔圆,万国同音,coqui-ai TTS跨语种语音克隆,钢铁侠讲16国语言(Python3.10)

按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术。coqui-ai TTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模型，该模型使用了一种音素输入表示来鼓励在不同语种之间共享模型容量。此外，还引入了对抗损失项，以鼓励模型将说话者身份与语音内容进行解耦。这使得模型能够在不同语种之间进行语音合成，而无需在任何双语或平行示例上进行训练。

2024-01-04 10:22:03 4899

原创 Win11环境Mecab日语分词和词性分析以及动态库DLL not found问题(Python3.10）

日语因为存在假名，会导致翻译软件进行翻译时机翻味道过重的问题，比如積ん読（つんどく）这个词，大多数软件会翻译成：堆积的读，但其实是明明买了书却不读，光放着的意思。有时候也需要单独查句子中的单词释义来理解句子的意思，但一看下去全是假名，无法像中文或者英文那样进行简单的分词操作。本次我们基于Python3.10的三方库Mecab来对日语进行分词和词性分析。

2024-01-02 13:43:36 2544

原创一键打包,随时运行,Python3项目虚拟环境一键整合包的制作(Venv)

之前我们介绍了如何使用嵌入式 Python3 环境给项目制作一键整合包，在使用嵌入式 Python 环境时，通常是作为另一个应用程序的一部分，而Python3虚拟环境是为了在开发过程中隔离项目所需的 Python 环境。虚拟环境允许我们在同一台计算机上的不同项目中使用不同的 Python 版本和软件包，而不会相互干扰。本次我们利用Python3自带的虚拟环境(venv)功能来给项目制作一键整合包。

2023-12-31 15:24:24 3803 1

原创免费背景音人声分离解决方案MVSEP-MDX23,足以和Spleeter分庭抗礼

在音视频领域，把已经发布的混音歌曲或者音频文件逆向分离一直是世界性的课题。音波混合的物理特性导致在没有原始工程文件的情况下，将其还原和分离是一件很有难度的事情。言及背景音人声分离技术，就不能不提Spleeter，它是一种用于音频源分离（音乐分离）的开源深度学习算法，由Deezer研究团队开发。使用的是一个性能取向的音源分离算法，并且为用户提供了已经预训练好的模型，能够开箱即用，这也是Spleeter泛用性高的原因之一，关于Spleeter

2023-12-29 09:04:13 3420

原创 Bert-vits2最终版Bert-vits2-2.3云端训练和推理(Colab免费GPU算力平台)

对于深度学习初学者来说，JupyterNoteBook的脚本运行形式显然更加友好，依托Python语言的跨平台特性，JupyterNoteBook既可以在本地线下环境运行，也可以在线上服务器上运行。GoogleColab作为免费GPU算力平台的执牛耳者，更是让JupyterNoteBook的脚本运行形式如虎添翼。本次我们利用Bert-vits2的最终版Bert-vits2-v2.3和JupyterNoteBook的脚本来复刻生化危机6的人气角色艾达王(ada wong)。

2023-12-27 13:23:58 4031

原创 Bert-vits2-2.3-Final，Bert-vits2最终版一键整合包(复刻生化危机艾达王)

近日，Bert-vits2发布了最新的版本2.3-final，意为最终版，修复了一些已知的bug，添加基于 WavLM 的 Discriminator（来源于 StyleTTS2），令人意外的是，因情感控制效果不佳，去除了 CLAP情感模型，换成了相对简单的 BERT 融合语义方式。

2023-12-22 15:36:26 3305 1

原创云端开炉,线上训练,Bert-vits2-v2.2云端线上训练和推理实践(基于GoogleColab)

对于笔者这样的穷哥们来讲，GoogleColab就是黑暗中的一道光，就算有训练时长限制，也能凑合用了，要啥自行车？要饭咱也就别嫌饭馊了，本次我们基于GoogleColab在云端训练和推理Bert-vits2-v2.2项目，复刻那黑破坏神角色莉莉丝(lilith)。

2023-12-19 12:21:13 3131

原创 Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)

近日，Bert-vits2-v2.2如约更新，该新版本v2.2主要把Emotion 模型换用CLAP多模态模型，推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成，让推理音色更具情感特色，并且推出了新的预处理webuI，操作上更加亲民和接地气。

2023-12-18 09:02:35 2668

原创衡兰芷若成绝响,人间不见周海媚(4k修复基于PaddleGan)

一代人有一代人的经典回忆，1994年由周海媚、马景涛、叶童主演的《神雕侠侣》曾经风靡一时，周海媚所诠释的周芷若凝聚了汉水之钟灵，峨嵋之毓秀，遇雪尤清，经霜更艳，俘获万千观众，成为了一代人的共同记忆。如今美人仙去，回望经典，雪肤依然，花貌如昨，白璧微瑕之处是九十年代电视剧的分辨率有些低，本次我们利用百度自研框架PaddleGan的视频超分SOTA算法来对九十年代电视剧进行4K修复。

2023-12-15 10:23:59 1680

原创 Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)

中英文混合输出是文本转语音(TTS)项目中很常见的需求场景，尤其在技术文章或者技术视频领域里，其中文文本中一定会夹杂着海量的英文单词，我们当然不希望AI口播只会念中文，Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理，但更新了底模之后，V2.0以上版本支持了中英文混合推理(mix)模式。

2023-12-08 14:07:35 2599 5

原创义无反顾马督工,Bert-vits2V210复刻马督工实践(Python3.10)

Bert-vits2更新了版本V210，修正了日/英的bert对齐问题，效果进一步优化；对底模使用的数据进行优化和加量，减少finetune失败以及电音的可能性；日语bert更换了模型，完善了多语言推理。

2023-11-29 10:49:38 1571 1

原创本地训练,立等可取,30秒音频素材复刻霉霉讲中文音色基于Bert-VITS2V2.0.2

之前我们[使用Bert-VITS2V2.0.2版本对现有的原神数据集进行了本地训练](https://v3u.cn/a_id_330)，但如果克隆对象脱离了原神角色，我们就需要自己构建数据集了，事实上，深度学习模型的性能和泛化能力都依托于所使用的数据集的质量和多样性，本次我们在本地利用Bert-VITS2V2.0.2对霉霉讲中文的音色进行克隆实践。

2023-11-27 11:37:44 1439

原创本地训练,开箱可用,Bert-VITS2 V2.0.2版本本地基于现有数据集训练(原神刻晴)

按照固有思维方式，深度学习的训练环节应该在云端，毕竟本地硬件条件有限。但事实上，在语音识别和自然语言处理层面，即使相对较少的数据量也可以训练出高性能的模型，对于预算有限的同学们来说，也没必要花冤枉钱上“云端”了，本次我们来演示如何在本地训练Bert-VITS2 V2.0.2模型。

2023-11-22 15:45:18 2598 2

原创又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享

Bert-vits2项目近期炸裂更新，放出了v2.0.2版本的代码，修正了存在于2.0先前版本的重大bug，并且重炼了底模，本次更新是即1.1.1版本后最重大的更新，支持了三语言训练及混合合成，并且做到向下兼容，可以推理老版本的模型，本次我们基于新版V2.0.2来本地推理原神小姐姐们的音色模型。

2023-11-20 11:27:12 1670

原创一键整合,万用万灵,Python3.10项目嵌入式一键整合包的制作(Embed)

我们知道Python是一门解释型语言，项目运行时需要依赖Python解释器，并且有时候需要安装项目中对应的三方依赖库。对于专业的Python开发者来说，可以直接通过pip命令进行安装即可。但是如果是分发给其他的Windows用户，特别是不熟悉Python的人来说，这样过于繁琐。因此最好的办法是连同Python解释器和Python项目打包在一起，通过嵌入式一键整合包解决项目的分发问题。本次我们以[一键扒谱的项目](https://v3u.cn/a_id_327)为例子，演示如何将项目直接打包为一键整合包，

2023-11-16 18:16:44 1066

原创不懂乐理,也能扒谱,基于openvpi将mp3转换为midi乐谱(Python3.10)

所谓"扒谱"是指通过听歌或观看演奏视频等方式，逐步分析和还原音乐作品的曲谱或乐谱的过程。它是音乐学习和演奏的一种常见方法，通常由音乐爱好者、乐手或学生使用。在扒谱的过程中，人们会仔细聆听音乐作品，辨别和记录出各个音符、和弦、节奏等元素，并通过试错和反复推敲来逐渐还原出准确的曲谱或乐谱。这对于那些没有正式乐谱或想学习特定曲目的人来说，是一种有效的方式。扒谱的目的是为了更好地理解和演奏音乐作品，从中学习技巧、乐曲结构和艺术表达等方面。但不懂乐理的人很难听出音符和音准，本次我们通过openvpi的开源项目

2023-11-15 16:18:12 1820

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

人工智能深度学习，语音克隆项目 Bert-vits2项目， 模型：星之守护者阿狸 语言：中文，训练步数：6000 版本号：2.3

人工只能深度学习，语音克隆项目 Bert-vits2项目 版本号：2.3 天童爱丽丝语音模型，语言：日语，训练步数：6000

用C#写的小游戏：俄罗斯方块

基于JAVA开发的证交所管理系统 B/S版

微软MCP中级认证原题

基于PHP的影视商城网络平台

空空如也

人工智能深度学习，语音克隆项目 Bert-vits2项目，模型：星之守护者阿狸语言：中文，训练步数：6000 版本号：2.3

人工只能深度学习，语音克隆项目 Bert-vits2项目版本号：2.3 天童爱丽丝语音模型，语言：日语，训练步数：6000