[论文记录] 2019 - Multimodal Transformer for Unaligned Multimodal Language Sequences

最新推荐文章于 2024-04-15 17:34:26 发布

EmoryDodin

最新推荐文章于 2024-04-15 17:34:26 发布

阅读量2.9k

点赞数 1

分类专栏：论文阅读文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_43862112/article/details/121402501

版权

论文简介

原论文：Multimodal Transformer for Unaligned Multimodal Language Sequences¹
针对非对齐多模态语言序列的多模态Transformer

论文地址：https://arxiv.org/abs/1906.00295

源码地址：https://github.com/yaohungt/Multimodal-Transformer

以下仅为作者阅读论文时的记录，学识浅薄，如有错误，欢迎指正。

Human language is often multimodal, which comprehends a mixture of natural language, facial gestures, and acoustic behaviors.
人类的语言通常是多模态的，包含了自然语言、面部姿态以及声学行为。
However, two major challenges in modeling such multimodal human language time-series data exist:
无论如何，建模这种多模态人类语言的时间序列数据存在两个主要的挑战

关注