口型动画论文解读1:《与汉语语音同步的三维人脸动画的研究》

说明

这是西南交通大学米辉辉的研究生论文,成文于2014年5月。我是从知网下载的。
这篇论文的主要研究的是文本驱动3D人脸动画。也就是包含了TTS及3D模型驱动这两部分。最后的成果就是这样一个软件工具。除了可以做表情,还可以朗读文本,同时生成动画。
在这里插入图片描述
在这里插入图片描述

音素分类

本文主要是生成文本对应的音素流,然后顺次播放每个音素的口型(中间用插值)实现的动画功能。
音素主要划分了10类,5类元音,5类辅音。
在这里插入图片描述

如何得到音素流

本文使用Microsoft Speech SDK 5.0来进行TTS,使用函数可以得到每个汉字对应的起止时间。然后再将每个汉字转化为拼音和对应的音素,这样就得到了音素流和时间的对应关系。
在这里插入图片描述

汉字内部如何划分音素的时间

由于TTS软件只能生成汉字的起止时间,汉字内部的音素时间长短需要另外计算。
音节包含两种音素 : 一种是元音, 另一种是辅音 。元音是属于影响地位的音素,而辅音是属于受影响地位的音素。根据《李皓,陈艳艳,唐朝京.唇部子运动与权重函数表征的汉语动态视位》这篇论文的信息,不同的因素的权重如下:
在这里插入图片描述
根据以上分析,辅音-元音影响的视位权重表达式用式(3-1)表示
在这里插入图片描述
为了实现与语音同步的三维人脸动画,可以通过响应中文TTS所产生的SPEI TTS BOUNDARY事件来估算出每个可视音素开始发音的时刻,每个汉字的持续时间T由相邻两个SPEI TTS BOUNDARY事件发生的时间差来确定。每个汉字持续时间的模拟图,如图 4-4 所示。
在这里插入图片描述
如图 4-4所示,我们需要估算出“爱交大”这三个字的持续时间,在T时刻发出“交”/jia0/,会产生SPEI TTSBOUNDARY事件,在遇到“大”时又会产生SPEI TTS BOUNDARY事件,此时为工时刻,由图4-4可知,“交”的持续时间为T=T-T。通过获得每个汉字发音的起始时间和持续时间,可以根据公式(4-1)计算每个中文可视音素开始发音的时间点:
在这里插入图片描述
上面的公式看着唬人,其实就是先计算每个音素的权重D,然后按比例划分占用时间片。

口型如何获得

上面说了,作者将音素划分为10类,每类一个静态口型。
在这里插入图片描述
作者采用的是Candide-3标准的人脸模型,并添加到了人脸肌肉模型来计算模型端点的位移:
在这里插入图片描述
上面粗的小棍就是模拟的肌肉位置。然后通过调整这些肌肉的参数来计算不同口型对应的3D模型端点的位置。

整体感觉这样有点麻烦了,肌肉模拟的好处是可以模型动态的细致过程, 如果只是得到每个音素对应的静态口型,用3D建模软件来绑定,然后使用形态键来为不同的口型摆造型。后面直接调用blendshapes就可以了。不知道是为了整活好毕业还是作者确实不熟悉3D建模软件。

总结

这篇论文的成果中也有对表情的的实现。但是很可惜只是简单的表情演示,没有将表情和口型动画结合起来。完全可以增加一个情感分析模块,然后在口型动画中增加表情。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值