2021-CCFA-Towards Fast and High-Quality Sign Language Production

该论文提出了一个基于混合密度网络和单调对齐搜索的快速高质量手语生产方法,受AlignTTS启发,用于将光泽序列转化为手语姿势。在训练阶段,使用持续时间预测器确定每个光泽的对齐长度,以解决现有方法在处理新短语或个人独特表达时的局限性。
摘要由CSDN通过智能技术生成


论文信息

  • 2021
  • Acm Multimedia【CCFA】,ACM是Association for Computing Machinery的缩写,是一个国际性的计算机科学组织。
  • 引用
    @inproceedings{DBLP:conf/mm/HuangPZ021,
    author = {Wencan Huang and
    Wenwen Pan and
    Zhou Zhao and
    Qi Tian},
    editor = {Heng Tao Shen and
    Yueting Zhuang and
    John R. Smith and
    Yang Yang and
    Pablo C{'{e}}sar and
    Florian Metze and
    Balakrishnan Prabhakaran},
    title = {Towards Fast and High-Quality Sign Language Production},
    booktitle = {{MM} '21: {ACM} Multimedia Conference, Virtual Event, China, October
    20 - 24, 2021},
    pages = {3172–3181},
    publisher = {{ACM}},
    year = {2021},
    url = {https://doi.org/10.1145/3474085.3475463},
    doi = {10.1145/3474085.3475463},
    timestamp = {Fri, 02 Dec 2022 08:27:05 +0100},
    biburl = {https://dblp.org/rec/conf/mm/HuangPZ021.bib},
    bibsource = {dblp computer science bibliography, https://dblp.org}
    }

Abstract

1. Introduction

	手语是一种具有复杂语法结构的丰富视觉语言,是聋人社区的交流语言。为了让聋人参与到更广泛的世界中以
口语为主的语言中,最近提出了大量的方法[38-40, 43]来解决具有挑战性的手语制作(SLP)问题。给定一个口
语描述,SLP旨在将其自动翻译成相应的连续手语序列。一般来说,手势序列可以表示为手势骨架姿势序列[38, 40]
或手语视频[39]。
	如图1所示,以前的SLP工作通常先将口语翻译成光泽1的中介,然后从光泽序列中生成手势姿势序列(G2P)
[38, 40],最后可能用手势姿势序列来驱动风格图像,生成手语视频[39]。因此,G2P是该管道的核心程序,是
本文的重点。
	一般来说,现有的G2P方法是基于序列自回归或序列到序列的编码器-解码器学习,它根据光泽序列以及当前生成
的姿势帧来生成下一个姿势帧[38, 40]。然而,这些自回归方法可能会面临以下两个挑战: 1) 误差积累:当前帧的
预测精度在很大程度上依赖于以前的帧的预测精度,导致预测误差随时间反复传播[40]。2)高推理延迟:处理时间
与标志姿势序列的长度大约呈线性增长。之前的工作PT[40]通过各种数据增强方法缓解了错误积累问题,但由于自回
归生成,它在速度和质量方面的表现仍然不能令人满意。
	为了解决这些问题,在骨架序列生成领域已经提出了非自回归模型[28, 49]。最典型的是用于人体运动预测的
mNAT[28]。mNAT通过非自回归帧解码器并行预测所有未来的骨架帧,缓解了上述问题并提高了性能,该解码器将位置
编码和上下文编码器的上下文特征作为输入。然而,与人类运动预测问题不同,G2P还需要对标志姿势序列和光泽度序
列之间的对齐进行建模。
	为此,我们提出了一个新颖的非自回归(NAT)模型,该模型具有完整的非自回归解码方案,以及一个用于序列对齐
学习的外部对齐器(EA)。我们把我们的整个系统称为NAT-EA。具体来说,NAT由前馈变换器、长度调节器和空间-时
间图卷积姿势发生器组成。长度调节器包含一个持续时间预测器。在推理阶段,光泽嵌入序列首先被前馈转化器转化为
光泽同步的特征序列。接下来,持续时间预测器预测与每个光泽度对齐的标志姿势序列的长度。根据长度,光泽度同步
的特征序列被长度调节器扩展为姿势同步的特征序列,然后由另一个前馈变换器和空间-时间图卷积姿势发生器依次转换
为目标手语姿势序列。在训练阶段,持续时间预测器针对目标长度进行优化,目标长度是由训练有素的EA生成的。
	接下来,我们考虑EA的具体设计。在非自回归文本到语音合成领域,持续时间预测器的目标一般来自训练有素
的自回归模型[37]。然而,由于误差积累问题,G2P问题的自回归模型很难在手语姿势序列和光泽度序列之间得到满意的
对齐。因此,受AlignTTS[55]的启发,我们应用混合密度网络[5]将光泽嵌入序列转化为手语姿势高斯分布的光泽同步序列,
然后通过单调对齐搜索[25]将其与目标手语姿势序列对齐,得到每个光泽的对齐长度,这些长度在训练阶段作为持续时间
预测器的目标长度。
	空间-时间图卷积在骨架序列生成中被广泛使用[49],它使生成的骨架序列更加平滑和自然,以提高模型性能。
因此,我们为我们的NAT模型设计了一个空间-时间图卷积姿势发生器,由多个空间-时间图卷积层和图上采样层组成,将
姿势同步的特征序列转化为目标标志姿势序列。

本文受AlignTTS[55] 的启发,应用混合密度网络[5] 将光泽嵌入序列转化为手语姿势高斯分布的光泽同步序列,
然后通过单调对齐搜索[25] 将其与目标手语姿势序列对齐,得到每个光泽的对齐长度,这些长度在训练阶段作为持续时间
预测器的目标长度。

  • [55]Aligntts Zhen Zeng, Jianzong Wang, Ning Cheng, Tian Xia, and Jing Xiao. 2020. Aligntts: Efficient Feed-Forward Text-to-Speech System Without Explicit Alignment. In 2020 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2020, Barcelona, Spain, May 4-8, 2020. IEEE, 6714–6718. https://doi.org/ 10.1109/ICASSP40776.2020.9054119
  • [5] 混合密度网络 Christopher M Bishop. 1994. Mixture density networks. (1994).
  • [25]单调对齐搜索Glow-TTSDilek Kayahan and Tunga Güngör. 2019. A Hybrid Translation System from Turkish Spoken Language to Turkish Sign Language, Petia D. Koprinkova-Hristova, Tuly Yildirim, Vincenzo Piuri, Lazaros S. Iliadis, and David Camacho (Eds.). INISTA, 1–6. https://doi.org/10.1109/INISTA.2019.8778347
	我们的主要贡献可归纳如下:
·  我们针对手语生产中的G2P问题提出了一种新型的带外部对齐器的非回归模型(NAT-EA),该模型通过解决错误积累问题和序列对齐问题
   提高了模型性能,并通过平行生成手势序列加快了程序。这是第一个针对G2P问题的非自回归模型。
·  我们设计了外部对齐器来生成每个光泽的对齐长度,这些长度在训练阶段被用作持续时间预测器的目标长度,并开发了空间-时间图卷积姿势
   发生器来生成目标符号姿势序列。
·  在具有挑战性的PHOENIX14T数据集[7]上进行的大量实验表明了我们提出的NAT-EA方法的有效性。

2. RELATED WORK

2.1 Human Motion Modeling

	由于人类运动动态的随机性和时空的复杂性,对其进行建模是很有挑战性的。由于人类姿势估计的成功[9],大量的现有工作[10, 16, 51, 
53]将运动动态制定为二维或三维身体关键点的序列。这些方法大多使用自回归模型,从静态图像或以前的运动中生成运动序列,并且通常通过
去噪策略减少误差的积累[16]。其他一些方法考虑以非自回归的方式直接生成整个序列[28, 49],用于人体运动预测。在这项工作中,我们为
手语生产引入了一个非自回归模型。

2.2 Sign Language Production

	在先前的SLP(手语识别和翻译)方法中,使用了动画化头像[23, 31],可以生成逼真的手语表现,但是依赖于短语查询和预先生成的
手语动作序列。

短语查询阶阶段: 将手语文本(例如单词、短语或句子)传递给系统,并使用现有的手语词典或短语库进行短语匹配。

手语动作预测阶段: 系统将给出表示匹配短语的手语动作序列,这些手语动作序列是从预定义的手语词典或短语库中提前生成的。

优缺点: 虽然这些方法可以提供高质量和逼真的手语表现,但由于它们仅针对特定的短语或预定义的手语库进行了设计,在现实世界中使用时会存在一些限制。例如,在新的手语短语或概念出现时,这些方法可能无法识别或提供相应的手语翻译。另外,由于每个人都有其独特的手语表达方式,使用预定义的手语库或短语库可能无法完全满足不同人的需要,这也是这些方法的一个局限性。

	统计机器翻译(SMT)也被应用于SLP中[24, 27],依赖于静态基于规则的处理,这可能很难进行编码。

在这种方法中,使用机器学习技术来学习输入文本和对应输出翻译之间的映射关系。具体来说,在SMT系统中,使用输入文本(例如手语文本)来预测相应的输出翻译(例如手语动作序列)。这种方法涉及两个主要步骤:训练和解码。

训练阶段: 使用大量的平行文本(例如手语+中文或手语+英文)来训练模型。 SMT系统学习如何从输入文本到输出翻译之间建立映射,通常使用基于统计学习的算法,例如隐马尔科夫模型(HMM)和最大熵模型(MaxEnt)。

解码阶段: 使用训练好的模型将输入文本(例如手语文本)转化为输出翻译(例如手语动作序列)。该方法的主要局限性在于,静态基于规则的处理往往需要专家的知识和手动规则设计,这是一项耗时且需要复杂维护的任务。 此外,由于规则过多和过于静态化,该方法也很难适应现实世界中不同的手语姿势和语言差异,这些因素往往不受到静态规则模型的考虑。

	最近,深度学习方法被应用于SLP的任务[13, 42, 48]。Stoll等人[43]提出了第一个深度SLP系统,它采用
了典型的三步SLP管道。在G2P程序中,他们产生了一个孤立的二维骨架姿势[15]的串联,通过一个查找表从手语
光泽中映射出来。在这个pipeline(模型实现的步骤)之后,B. Saunders等人[40]提出了渐进式转化器,直接
学习词汇和骨架姿势序列之间的映射。此外,他们提出了SIGNGAN[39],从口语中产生照片般逼真的连续手语视频,
其中他们应用混合密度网络来提高其G2P模型的性能。
  • 第一个深度SLP系统:Text2Sign: Towards Sign Language Production using Neural Machine Translation and GAN,它采用
    了典型的三步SLP管道。在G2P程序中,他们产生了一个孤立的二维骨架姿势[15]的串联,通过一个查找表从手语光泽中映射出来。
	然而,所有这些针对G2P问题的方法都是基于自回归模型的,它存在错误累积问题和高推理延迟。
而我们的框架则以非自回归的方式直接生成整个标志姿势序列,并有效地解决了这些问题。

2.3 Non-Autoregressive Models

3 THE PROPOSED METHOD

3.1 The Overall Architecture Design

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笔下万码生谋略

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值