ChatTTS增强版V2，批量导出srt，语速控制，情感控制，支持朗读数字，问题修复

最新推荐文章于 2024-09-23 09:38:49 发布

嘟嘟实验室

最新推荐文章于 2024-09-23 09:38:49 发布

阅读量3k

点赞数 26

分类专栏： AI 文章标签：人工智能 python AIGC ChatTTS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43935971/article/details/139537342

版权

AI 专栏收录该内容

38 篇文章 20 订阅

订阅专栏

ChatTTS增强版最新版本已经发布，本次更新我主要增加了多文本批量、SRT导出、语速控制、情感控制、停顿控制等新功能，并针对上一版本中存在的数字读音异常、随机uv_break等问题进行了修复。

视频版本

【ChatTTS增强版V2，批量导出srt，语速控制，情感控制，支持朗读数字，问题修复】 https://www.bilibili.com/video/BV17T421e76w/?share_source=copy_web&vd_source=09316244e4ff3a9793930d67cf748288

更新内容

批量txt

新增支持多个txt文本批量导入,会针对每个txt文本进行处理。

听取大家的建议，批量处理后的txt会按照文件名来保存。

导出路径为：output_audio/你的txt名/

每个文件夹内分别存放着合并后的音频、音频切片、增强后的音频切片。

导出的完整的音频路径为：output_audio/你的txt名/合并/

导出的音频切片路径为：output_audio/你的txt名/切片/

导出的增强音频切片路径为：output_audio/你的txt名/增强切片/

SRT导出

批量模式下支持导出srt文件。会针对每个txt文本合成的音频生成对应的srt文件。

srt会导出路径:output_audio/你的txt名/你的txt名.srt

srt文本内容

这里说下，srt某些情况下会有误差，需检查下时间戳。

数字转换

由于ChatTTS不能很好的去朗读数字，这里做了一个转换。

比如这句话:我有10块4090显卡，今天出门丢了1块，很难受，今天是2024年。

读出来就是:

(音频)

开启数字转换后：

(音频)

这里还是把4090显卡型号以及年份读错了。因为数字转换在特殊情况下还是不能很好的去识别，这里最好的办法就是加空格

修改后的文字:我有10块4 0 9 0显卡，今天出门丢了1块，很难受，今天是2 0 2 4年。

在你想要单独读的数字组合里添加空格隔开。再开启数字转换后的效果：

(音频)

语速调整

增加了语速调节。默认值为0。最高是10，建议调到5或者6，10的话会有奇怪的英文读音混进去。

口语化调整

这里对这个参数的理解就是口语化，或者是说话的自然程度。

比如还是刚才那句:我有10块4 0 9 0显卡，今天出门丢了1块，很难受，今天是2 0 2 4年。

其他参数相同，oral为0的效果：

(音频效果)

oral为5的效果：

(音频效果)

可以听到，在oral为5的情况下自动添加了：就、啊等语气或者连接词来让音频更加自然。

笑声调整

控制音频的笑声程度。

当然你也可以在文字中输入[laugh]来手动添加笑声。

生成的效果：

(音频效果)

停顿调整

停顿为0

(音频效果)

停顿为4

(音频效果)

这个参数也可以在文本中输入[uv_break]来手动添加停顿。

(音频效果)

问题修复

uv_break问题

首先说下上次最大的问题，好多朋友反馈说会读u_break的问题。这里跟大家说声抱歉，那是个我漏掉的bug。

这个版本我针对这个问题做了调整，大家可以试下。

如果还有这个问题可以将break调整为0，关闭提炼文本尝试下。

IP端口问题

V1版本的ip和端口号是固定的，有些朋友电脑上8080端口是禁用的，造成访问不了网页的问题，或者是开了代理进不去的问题。

这个版本默认ip是127.0.0.1，端口号是自动获取本机开放空闲的端口。

如果你想要自定义ip或端口号，可在整合包根目录下找到config.ini文件。

修改custom_server的值为True表示开启自定义ip、端口号。False为关闭自定义ip、端口号。

ip和端口修改为你想要设定的值即可。

实验性选项

这里是开发中的一个测试选项，还不完善。可自行测试音色固定程度，如果开启后生成的结果无效果，或异常，关掉即可。

⚠️已知的是开启后会导致N卡用户音频增强过程变得极慢！！！慎重开启

配置要求

以下是整合包运行所需配置

WIN

Windwos10/11操作系统
支持CPU/GPU

MAC

Apple Silicon M系列芯片、Intel 芯片
MacOS 10.13以上版本

云端版本

适用于机器配置低的朋友，云端镜像一键部署。

云端一键部署镜像

关于显存，最低4G显存(不开启音频增强的情况下)

Mac 由于cuda原因目前只支持cpu进行推理。

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

关注公众号,发送【ChatTTSV2】关键字获取整合包。

如果发了关键词没回复你！记得看下复制的时候是不是把空格给粘贴进去了！

写在最后

还有很多朋友的建议，比如增加标点符号分割、克隆用户音色等，这些想法都很不错，我也会在后续的版本中进行更新。

最后非常感谢大家对这个项目的支持。如果您有更多的想法或建议，欢迎通过私信或在评论区留下你们的意见。

制作不易，如果本文对您有帮助，还请点个免费的赞或在看！感谢您的阅读！

嘟嘟实验室

关注

26
点赞
踩
28

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。