论文阅读（一）：Hierarchical LSTM for Sign Language Translation

最新推荐文章于 2024-08-16 08:25:16 发布

Monmoka

最新推荐文章于 2024-08-16 08:25:16 发布

阅读量8.3k

点赞数 3

本文链接：https://blog.csdn.net/ydy_2017211924/article/details/98882885

版权

该研究提出了一种Hierarchical LSTM (HLSTM)模型，用于解决连续手语翻译中的帧级和单词级对齐问题以及语序混乱。通过3D-CNN提取视觉特征，结合在线关键剪辑挖掘和注意感知加权机制，实现了从视频到文本的高效转换。实验表明，HLSTM模型在处理连续手语翻译时，能有效降低计算复杂度，同时保持良好性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

SLT （Sign Language Translation）手语翻译
CTC (Connectionist temporal classification) 连接主义时间分类
linguistics /lɪŋ’gwɪstɪks/ n. 语言学
sequential gesture variation 连续的手势变化

解决的问题

连续手语翻译中
->帧级和word级的对齐问题，
->句子中与视觉内容相对应的语序混乱问题。（messing word order corresponding to visual content ）
[句子中的单词标签与相应的视觉内容的顺序混乱]

granularity /grænjʊ’lærɪtɪ/ n. 颗粒度
spatiotemporal /,speɪʃɪəʊ’tempərəl/ adj. 时空的

提出的模型

一种具有可视化与文字嵌入的分层LSTM（HLSTM）自编/解码器。通过传输帧、剪辑和视素单元之间的时空转换来处理不同的粒度。

模型内容

1）首先利用3D-CNN研究视频片段的时空线索，通过自适应变长在线关键片段挖掘(online key clip mining)，压缩合适的（appropriate）视素。

intrinsic /ɪn’trɪnsɪk/ adj.内在的
recurse v. 递归

2）在将HLSTM顶层的循环输出池化（Pooling）后，提出了一种时间注意加权机制来平衡视素源位置之间的内在关系
3）最后，利用另外两个LSTM层分别对视素向量进行递归和语义转换

模型效果

在保留了3D CNN和HLSTM顶层的原始视觉内容后，缩短了底层两层LSTM的编码时间步长（encoding time step ），使计算复杂度更低，同时获得了更多的非线性。

我们提出的模型在有可见句子的单点独立测试（singer-independent test with seen sentences ）中表现出良好的性能，并且在无可见句子的比较算法中也有较好的表现。

Introduction

To be specific 具体地说

研究介绍------

研究目标：

将视频翻译成可理解的文本和语言
弱监督学习----缺乏对手语准确时间位置的监督

难点：

1)SLT是由单手势（sign）单词识别衍生而来的，一种动作识别或视频分类
2)SLT类似于视频字幕（video captioning）----视频被直接翻译成文本序列
区别：视频字幕使用语法知识和语义一致性，以对象、场景、动作或动作的特征表示来生成句子，而SLT则强调 独立子视频片段 的词转换。
3)难以将子视频clips与单词对齐；难以识别视觉语言

is consistent to 与…相一致
prerequisite /priː’rekwɪzɪt/ n. 先决条件
corresponding visual content 相应的XXXX
respectively /rɪ’spektɪvlɪ/ adv. 分别地

内容简介：

1）采用encoder-decoder框架，分别学习视觉内容和单词嵌入。
2）提出了HLSTM模型，有效地编码视觉语义

核心思想：建立一个具有不同粒度（different granularities）的多层可视化语义嵌入体系结构（multi-layered visual-semantic embedding architecture）
（不同粒度）如：帧、视素（sub-visual-word）、视觉词（visual-word）和整个video