论文阅读(一):Hierarchical LSTM for Sign Language Translation

该研究提出了一种Hierarchical LSTM (HLSTM)模型,用于解决连续手语翻译中的帧级和单词级对齐问题以及语序混乱。通过3D-CNN提取视觉特征,结合在线关键剪辑挖掘和注意感知加权机制,实现了从视频到文本的高效转换。实验表明,HLSTM模型在处理连续手语翻译时,能有效降低计算复杂度,同时保持良好性能。
摘要由CSDN通过智能技术生成

Abstract


SLT (Sign Language Translation) 手语翻译
CTC (Connectionist temporal classification) 连接主义时间分类
linguistics /lɪŋ’gwɪstɪks/ n. 语言学
sequential gesture variation 连续的手势变化


解决的问题

连续手语翻译中
->帧级和word级的对齐问题,
->句子中 与视觉内容相对应的语序混乱 问题。(messing word order corresponding to visual content )
[句子中的单词标签与相应的视觉内容的顺序混乱]


granularity /grænjʊ’lærɪtɪ/ n. 颗粒度
spatiotemporal /,speɪʃɪəʊ’tempərəl/ adj. 时空的


提出的模型

一种具有可视化与文字嵌入的分层LSTM(HLSTM)自编/解码器。通过传输帧、剪辑和视素单元之间的时空转换来处理不同的粒度

模型内容

1)首先利用3D-CNN研究视频片段的时空线索,通过自适应变长在线关键片段挖掘(online key clip mining),压缩合适的(appropriate)视素。


intrinsic /ɪn’trɪnsɪk/ adj.内在的
recurse v. 递归


2)在将HLSTM顶层的循环输出池化(Pooling)后,提出了一种时间注意加权机制来平衡视素源位置之间的内在关系
3)最后,利用另外两个LSTM层分别对视素向量进行递归和语义转换

模型效果

在保留了3D CNN和HLSTM顶层的原始视觉内容后,缩短了底层两层LSTM的编码时间步长(encoding time step ),使计算复杂度更低,同时获得了更多的非线性。

我们提出的模型在有可见句子的单点独立测试(singer-independent test with seen sentences )中表现出良好的性能,并且在无可见句子的比较算法中也有较好的表现。

Introduction


To be specific 具体地说


研究介绍------
研究目标:

将视频翻译成可理解的文本和语言
弱监督学习----缺乏对手语准确时间位置的监督

难点:

1)SLT是由单手势(sign)单词识别 衍生而来的,一种动作识别或视频分类
2)SLT类似于视频字幕(video captioning)----视频被直接翻译成文本序列
区别:视频字幕 使用语法知识和语义一致性,以对象、场景、动作或动作的特征表示来生成句子,而SLT则强调 独立子视频片段 的词转换。
3)难以将子视频clips与单词对齐;难以识别视觉语言


is consistent to 与…相一致
prerequisite /priː’rekwɪzɪt/ n. 先决条件
corresponding visual content 相应的XXXX
respectively /rɪ’spektɪvlɪ/ adv. 分别地


内容简介:

1)采用encoder-decoder框架,分别学习视觉内容和单词嵌入
2)提出了HLSTM模型,有效地编码视觉语义

核心思想:建立一个具有不同粒度(different granularities)的多层可视化语义嵌入体系结构(multi-layered visual-semantic embedding architecture)
(不同粒度)如:帧、视素(sub-visual-word)、视觉词(visual-word)和整个video

特点:

处理子符号单元(视素)的视觉特征嵌入( visual feature embedding of subsign units )
我们寻求高层次(level)的视素表现,并关注这

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值