音素与视素(Viseme)

什么是视素(视位)

音素(Phoneme),是人类语言中能够区别意义的最小声音单位。视素(Viseme),是指与某一音素相对应的嘴、舌头、下腭等可视发音器官所处的状态。Viseme是MPEG-4 标准提出来的概念。

有时Viseme也翻译为视位。下面会混用这两个翻译方法,但意义一样。

视素如何做动画

既然视素就是发音时嘴巴等部位的状态,如果能获取语音的音素序列,则可得对应的视素序列,按照一定的速度变换嘴巴、下巴的动作就可以实现语音的同步动画。

视素知多少

音素的数量虽多,但是由于很多因素的发音动作类似,他们对应的视素完全可以复用,所以整体上视素的数量远小于音素的种类。

由于不同的语言发音不同,视素也就不同。

国际音标视素

MPEG-4 把国际音标的发音分为 15 个静态视位。考虑到各种语言的发音特点和不同的音位组成,各国学者对不同语言的发音口形作了很多研究,现今多限于静态视位。如 Bothe 将德语发音口形分为 12 个静态视位、Le Goff 将法语发音口形分为 19 个静态视位、Ezzat 将英语发音口形分为 16 个静态视位、Lande 将意大利语发音口形分为 23 个静态视位等等。
在这里插入图片描述

汉语的视素

汉语由声母和韵母组成。其中声母都是辅音,韵母有的是元音,有的是元音和辅音的组合。
从音位的角度来考虑,汉语音位有 32 个,包括 22 个辅音音位和 10 个元音音位;从汉语发音的基
本组成单位来考虑,可以分为 21 个声母和 38 个韵母,其中韵母又可分为单韵母和复合韵母。

不同的人根据需要,对声母和韵母的归类不尽相同。对应的视素个数也就不同。

分类1

参考资料里《汉语语音视位的研究 王志明 蔡莲红》将汉语分为为 28 个基本的静态
视位。
在这里插入图片描述
在这里插入图片描述

分类2

《基于语音驱动的表情动画设计与实现-郭梦婷》里将汉语音素分为13类
在这里插入图片描述
在这里插入图片描述

分类3:微软的分类

根据微软:将音素映射到视素 ID 的描述,微软将视素分为22个(这22个视素考虑了各国语言的需要,并不是只针对中文):
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
微软:SSML 音标页面上,微软提供了汉语音素和视素的对应关系:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

分类4

根据游戏中口型动画合成系统的描述,只识别元音,使用5个非静音视位也可以满足简单的动画场景

在这里插入图片描述

分类5

博士论文:真实感汉语可视语音合成关键技术研究-赵晖》里使用聚类方法来对汉语音素进行聚类,声母和韵母分别聚为5类。

在这里插入图片描述
作者总结的部分口型
在这里插入图片描述
在这里插入图片描述

总结

汉语的视素分类有很多种分法,可多可少。

参考资料

汉语语音视位的研究 王志明 蔡莲红

语音生成口型与表情技术的演进与未来

游戏中口型动画合成系统

什么是视素(Viseme)?该如何表示?

微软:将音素映射到视素 ID
微软:SSML 音标

《基于语音驱动的表情动画设计与实现-郭梦婷》

博士论文:真实感汉语可视语音合成关键技术研究-赵晖

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值