音素与视素（Viseme）

yuanlulu

已于 2024-04-18 10:11:58 修改

阅读量1.4k

点赞数 6

分类专栏：数字人/3D建模/动画文章标签：语音音素口型动画视素视位

于 2024-04-17 23:10:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yuanlulu/article/details/137891803

版权

数字人/3D建模/动画专栏收录该内容

8 篇文章

订阅专栏

本文介绍了视素作为语音动画的基础，通过音素对应，实现嘴部动作的同步。讨论了音素和视素的关系，提到不同语言的视素差异，以及汉语视素的多种分类方法，如28个基本静态视位到5类声母韵母聚类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是视素（视位）

音素(Phoneme)，是人类语言中能够区别意义的最小声音单位。视素(Viseme)，是指与某一音素相对应的嘴、舌头、下腭等可视发音器官所处的状态。Viseme是MPEG-4 标准提出来的概念。

有时Viseme也翻译为视位。下面会混用这两个翻译方法，但意义一样。

视素如何做动画

既然视素就是发音时嘴巴等部位的状态，如果能获取语音的音素序列，则可得对应的视素序列，按照一定的速度变换嘴巴、下巴的动作就可以实现语音的同步动画。

视素知多少

音素的数量虽多，但是由于很多因素的发音动作类似，他们对应的视素完全可以复用，所以整体上视素的数量远小于音素的种类。

由于不同的语言发音不同，视素也就不同。

国际音标视素

MPEG-4 把国际音标的发音分为 15 个静态视位。考虑到各种语言的发音特点和不同的音位组成，各国学者对不同语言的发音口形作了很多研究，现今多限于静态视位。如 Bothe 将德语发音口形分为 12 个静态视位、Le Goff 将法语发音口形分为 19 个静态视位、Ezzat 将英语发音口形分为 16 个静态视位、Lande 将意大利语发音口形分为 23 个静态视位等等。
在这里插入图片描述

汉语的视素

汉语由声母和韵母组成。其中声母都是辅音，韵母有的是元音，有的是元音和辅音的组合。
从音位的角度来考虑，汉语音位有 32 个，包括 22 个辅音音位和 10 个元音音位；从汉语发音的基
本组成单位来考虑，可以分为 21 个声母和 38 个韵母，其中韵母又可分为单韵母和复合韵母。

不同的人根据需要，对声母和韵母的归类不尽相同。对应的视素个数也就不同。

分类1

参考资料里《汉语语音视位的研究王志明蔡莲红》将汉语分为为 28 个基本的静态
视位。
在这里插入图片描述

分类2

《基于语音驱动的表情动画设计与实现-郭梦婷》里将汉语音素分为13类
在这里插入图片描述

分类3：微软的分类

根据微软：将音素映射到视素 ID 的描述，微软将视素分为22个（这22个视素考虑了各国语言的需要，并不是只针对中文）：
在这里插入图片描述

在微软：SSML 音标页面上，微软提供了汉语音素和视素的对应关系：

分类4

根据游戏中口型动画合成系统的描述，只识别元音，使用5个非静音视位也可以满足简单的动画场景

在这里插入图片描述

分类5

《博士论文：真实感汉语可视语音合成关键技术研究-赵晖》里使用聚类方法来对汉语音素进行聚类，声母和韵母分别聚为5类。

在这里插入图片描述
作者总结的部分口型

总结

汉语的视素分类有很多种分法，可多可少。

参考资料

汉语语音视位的研究王志明蔡莲红

语音生成口型与表情技术的演进与未来

游戏中口型动画合成系统

什么是视素(Viseme)？该如何表示？

微软：将音素映射到视素 ID
微软：SSML 音标

《基于语音驱动的表情动画设计与实现-郭梦婷》

博士论文：真实感汉语可视语音合成关键技术研究-赵晖

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。