阅读文献学习记录五（多语言协同）

不爱吃香菜爱看论文

于 2022-07-14 17:46:48 发布

阅读量519

点赞数

文章标签：大数据神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46336310/article/details/125789123

版权

多语言协同的视频连续手语识别

问题1：多语言识别问题；

创新点、解决方法：不同手语有共享的视觉模式，提出了一种多语言手语识别框架。

模型：一个共享的视觉特征编码器+多个针对不同语言的时序编码器+一个用于学习语言共性的通用时序编码器。

之前为了解决多语言识别问题，都是在相同的网络框架上训练若干个针对不同手语语种的模型参数，虽然能取得一定的效果，但是忽略了不同手语之间存在相似的视觉模式的问题，分开独立训练的做法也不利于模型对手语共性的挖掘。

流程：使用一个公共的视觉特征编码器提取特征表达，对于不同语种的手语，使用不同的时序建模网络学习对应手语语言特性，使用一个共享的时序编码器来表达不同手语语种之间相同的视觉模式
框架示意图：

使用CNN-TCN用于特征提取，采用BLSTM作为序列模型，去学习视觉特征和手语词之间的对用关系。

手语识别模型：

迭代示意图：

在网络优化时，提出基于最大概率路径的动态规划算法解码算法，提取视频与标注序列之间的对齐关系，用于视觉编码器的微和进一步的优化。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。