![](https://img-blog.csdnimg.cn/20190918140012416.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
- 生成模型 -
文章平均质量分 90
生成相关文章,包含GAN,VAE等等~
夏天|여름이다
人工智能研究员,致力于计算机视觉,自然语言处理,语音处理,多模态模型,强化学习等相关研究。
展开
-
生成模型 | 2024年新年新论文:audio2photoreal[正在更新中]
本博客主要包含了20240103新出的论文From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations论文解释及项目实现~原创 2024-01-09 14:49:45 · 1246 阅读 · 0 评论 -
生成模型 | GAN系列生成系列论文及代码调研总结
本文主要讲解生成模型中的GAN系列相关模型,模型之间的差异对比~原创 2024-01-02 17:24:23 · 1169 阅读 · 0 评论 -
生成模型 | 数字人类的三维重建(3D reconstruction)调研及总结【20240222更新版】
本文主要集中于图片到三维重建的算法模型的调研,其中包含人体重建,人脸重建等,博客主要集中于数字人建模的基本方法论文以及算法发展类~ 不定时更新~原创 2023-12-10 12:08:15 · 1773 阅读 · 0 评论 -
TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)
提出一种TTS模型框架VITS,用到normalizing flow和对抗训练方法,提高合成语音自然度,其中论文结果上显示已经和GT相当。是结合了VAE和FLOW的新架构。在俩各数据集中的实验结果论文的主要贡献:首个自然度超过2-stage架构SOTA的完全E2E模型。MOS4.43, 仅低于GT录音0.03。得益于图像领域中把Flow引入VAE提升生成效果的研究,成功把Flow-VAE应用到了完全E2E的TTS任务中。训练非常简便,完全E2E。原创 2023-09-18 15:02:06 · 7698 阅读 · 4 评论 -
TTS | 轻量级语音合成论文详解及项目实现
介绍了之前的俩阶段语音合成(声学模型和Vocoders),因为VITS是高质量端到端的模型,所以论文提出的模型是基于VITS轻量级的端到端模型,论文主要几种在模型的解码部分,也就是转换潜在的声学特征到wavaform,用简单的反向短时傅立叶变换 (iSTFT)代替一部分解码器,以高效地完成频域到时域的转换.在推理提升速度时,使用多段处理。在提出的方法时,每一个iSTFTNet,子段信号。推理时,比原本的VITS快了4.1倍,原创 2023-09-18 15:06:08 · 1832 阅读 · 0 评论 -
TTS | VocGAN声码器训练自己的数据集
本博客主要介绍的是如何使用VocGAN声码器训练不同的数据集~原创 2023-08-16 08:38:22 · 461 阅读 · 0 评论 -
CV | Emotionally Enhanced Talking Face Generation论文详解及代码实现
本博客主要讲解了Emotionally Enhanced Talking Face Generation(情感增强的谈话人脸生成)论文概括与项目实现,以及代码理解。Code:(克隆项目下载权重后,可直接进行推理)原创 2023-06-01 15:31:41 · 1630 阅读 · 9 评论 -
TTS | 基于FastSpeech2的语音中英文语音合成项目
环境:Ubuntu(docker),pytorch,原创 2023-04-04 13:24:20 · 3644 阅读 · 7 评论 -
多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解
情绪是人类行动的一个固有部分,因此,开发能够理解和识别人类情绪的人工智能系统势在必行。在涉及不同人的对话中,一个人的情绪会受到其他说话者的言语和他们自己在言语中的情绪状态的影响。在本文中,我们提出了基于 COntex- tualized Graph Neural Network的多模态情感识别COGMEN)系统,该系统利用了本地信息(即说话人之间的内/外依赖性)和全局信息(上下文)。建议的模型使用基于图谱神经网络 (GNN) 的架构来模拟对话中的复杂关系(本地和全局信息)。原创 2023-04-03 15:22:12 · 1854 阅读 · 0 评论 -
TTS | 利用Fastspeech训练LJSpeech语音数据集后英文文本生成语音及代码详解
基于的前馈网络,用于并行生成梅尔谱图。模型与自回归相比,梅尔谱图生成速度加快了270倍,端到端语音合成速度加快了38倍。项目实现把下载的预训练模型改名为解压文件当当前文件夹然后运行处理完数据后,开始进行训练(训练将近一周)训练后如图训练后进行验证,先修改eval.py中的超参数 --step ,改为自己刚训练后的model_new文件夹下的checkpoint后面的数,如图我的情况把默认0,改为768000,如下然后再运行(如果运行后出现错误,请参考Q&A2)结果显示如图。原创 2023-09-20 12:57:45 · 739 阅读 · 0 评论 -
GAN | 代码简单实现生成对抗网络(GAN)(PyTorch)
GAN从编程的角度来看(纯个人理解,不对可指正)利用numpy的random方法,随机生成多维的噪音向量创建一个G网络用来生成创建一个D网络用来判断俩个网络在训练时分别进行优化先训练D网络去判断真假:如果训练D为真时,进行传播;如果训练D为假时,进行传播,投入优化器(1为真,0为假)在D的基础上训练G。*因为是随机生成,所以每次生成结果不同。原创 2023-02-28 16:44:21 · 5122 阅读 · 1 评论