数字人/3D建模/动画
文章平均质量分 87
yuanlulu
做过嵌入式Linux开发、深度学习平台开发。擅长c++和python。
展开
-
深度学习口型驱动Visemenet使用小结
看官网资料,他们主要是做口型动画的,他们的主要方法和概念在论文《》里有介绍。他们通过观察发现,人们发音时的动作有两个重要维度,一是下巴骨骼的运动,二是嘴部肌肉的运动。而不同的说话"风格",可以通过调整这两个维度从而捕捉到更有表达力的口型。比如同一个人用不同的情绪来发同一个音素,其口型差距巨大。不同的发音方法对应的嘴唇宽度和下巴位移量都不一样。在JALI的坐标轴中,五种风格的发音分布如下。其横坐标是下巴位移,纵坐标是嘴唇形变。当然,除了下巴和嘴唇宽度,正常的视位口型还是需要的。原创 2024-04-30 19:47:02 · 1100 阅读 · 0 评论 -
使用共振峰提取元音音素/从声音生成口型动画
这个变量是下一步要用的。视位序列内容是0~5的数字,0表示静音状态,1-5分别表示a\o\e\i\u的嘴型视位。》中的方法可以提取音频文件的共振峰,使用三个共振峰作为三个坐标,和标准的元音共振峰求欧氏距离,距离最近的就是对应的原因。由于上面生成的视位fps是40,我在生成视频前将视位id做了滤波,也就是每4个位置进行统计,压缩为一个视位,压缩后的视位就是4个位置上出现最多的视位。所以我生成的视频是10fps的。我选取了a\o\e\i\u的对应的5张图片对应的视位,存到一个名称为viseme的目录下,如下。原创 2024-04-19 23:20:25 · 1294 阅读 · 0 评论 -
音素与视素(Viseme)
音素(Phoneme),是人类语言中能够区别意义的最小声音单位。视素(Viseme),是指与某一音素相对应的嘴、舌头、下腭等可视发音器官所处的状态。Viseme是MEPG4标准提出来的概念。有时Viseme也翻译为视位。下面会混用这两个翻译方法,但意义一样。原创 2024-04-17 23:10:36 · 781 阅读 · 1 评论 -
使用python+librosa提取共振峰
我的需求是在做动画的时候由音频文件生成嘴型动画,免去做口型的K帧的工作量。在考察了一些技术后,我发现,如果能让算法从音频文件生成音素序列或者blendshaps权重系数序列是比较符合我需求的。离线在线都行,我不需要实时。声音驱动人脸的比较出名的应该是英伟达的Audio2Face,这个方案生成的是Audio2Mesh,不是blendshaps。原创 2024-04-17 17:38:52 · 1342 阅读 · 1 评论 -
口型动画论文2:《基于语音驱动的表情动画设计与实现》
根据音素之间互相影响的规律,按照容易被影响的程度将汉语声母、韵母进行等级的划分,越高级表示越不容易受到影响,如表3-3所示,表3-4所示。根据表格显示的等级,高等级的韵母更不容易受到低等级韵母的影响,高等级的韵母更容易对低等级的韵母、声母产生影响。本文的衍生的成品不是一个软件,而是一段动画,而且是根据已有的语音来设计嘴型动画,作者根据汉语的发声特点设计了14种静态视位。可惜作者是艺术学院的,不是计算机相关专业,最终只是形成了一个给人看的做动画的技能指南,而不是一个自动化的软件工具。原创 2024-04-13 23:45:21 · 379 阅读 · 0 评论 -
口型动画论文解读1:《与汉语语音同步的三维人脸动画的研究》
这篇论文的成果中也有对表情的的实现。但是很可惜只是简单的表情演示,没有将表情和口型动画结合起来。完全可以增加一个情感分析模块,然后在口型动画中增加表情。原创 2024-04-13 15:45:30 · 469 阅读 · 1 评论 -
汉语语音基本特性
人的发音生理机构如图 2.3.1所示,发音时由肺部收缩送出一股直流空气,经气管流至喉头声门处(声门即声带开口处),在发声之初,声门处的声带肌肉收缩,声带并拢间隙小于 1mm,这股直流空气冲过很小的缝隙,使声带得到横向和纵向的速度,此时,声带向两边运动,缝隙增大(成年男性开到最大时,截面积约为 20mm),声门处压力下降,弹性恢复力将声带拉回平衡位置并继续趋向闭合,即声带产生振动,而且具有一定的振动周期,如图 2.3.2所示。,是一种三维图形,纵轴对应于频率,横轴对应于时间,图像的黑白度正比于语音信号的。原创 2024-04-01 18:14:57 · 1205 阅读 · 0 评论 -
数字人:试用FACEGOOD-Audio2Face的不愉快经历
就像名字中的那样,这其实是一个Audio2Face。主要就是将语音转口型的一个算法,内含了tensorflow的预训练模型,也提供了训练代码。但是该方案还包含了ASR和TTS的流程,包含了一整个问答的流程。中间只缺了连gpt生成内容的部分,这部分代码可以自己加。整体框图如下:上图ASR和TTS之间插入调用大预言模型的代码。不加的话会比较奇怪,自己识别后又TTS。facefood的这个开源不走心,没法用于自己的ARKit方案。除非你打算用官方的116维权重的3D模型。原创 2024-03-25 11:27:29 · 1861 阅读 · 3 评论