一、多模态简介
1.什么是多模态?
我们生活中的多模态指的是文字、文本、语音信号、图片信息、视频信息等这些模态以及更广泛的触觉、嗅觉等这些信号区都可以算作一种模态。目前在人工智能领域的多模态交互一般集中在文本、图像、视频、音频等信号的结合上面。
多模态学习(MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比 较热门的研究方向是图像、视频、音频、语义之间的多模态学习。
2.多模态的技术点及典型应用
多模态的技术点如下:
- 多模态表示学习 (Representation)
将实体化信息(文本、图片)通过向量来表示,分为联合表示与协同表示
联合表示:将多个模态的信息一起映射到一个统一的多模态向量空间
协同表示:将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之 间满足一定的相关性约束(例如线性相关)
多模态表示学习本质上是在向量空间当中对应的特征关系与原始信息是否具有一致性。 - 模态转化 (Translation)
多模态转化也可称为映射 (Mapping),主要是将一个模态的信息 转化或映射为另一个模态的信息。比如:从图像模态转化为文本模态或者音频模态。
主要应用:- 机器翻译(MachineTranslation) 、唇读(Lip Reading)和语音翻译 (Speech Translation)
- 图片描述 (Image Captioning)与视频描述(Video Captioning)
- 语音合成(Speech Synthesis)
- 模态对齐 (Alignment)
不同模态之间内容信息上的对齐;从来自同一个实例的两个甚至多个模态中寻找子成份之间的关系和联系。
相关任务:给定一张图片和图片的描述,找到图中的某个区域以及这个区域在描述 中对应的表述;图像语义分割(Image Semantic Segmentation)
- 多模态融合(Fusion)
将不同模态的信息作内容上的互补,联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)
相关任务 :- 视觉-音频识别(Visual-Audio Recognition)
- 多模态情感分析(Multimodal sentiment analysis)
- 手机身份认证(Mobile IdentityAuthentication)
- 协同学习(Co-learning)
不同模态多任务的学习方式,这个是多模态研究的主要技术点。通过利用资源丰富(比如数据量大)的模态的知识来辅助资源稀 缺(比如较小数据)的模态建立模型。协同学习本质上是利用不同模态资源的稀缺
二、在文本分类和文本生成中的应用
这些任务基本都是和图像、音频等信息结合起来共同作用。
- 讽刺检测
基于多模态信息讽刺检测
M u l t i − M o d a l S a r c a s m D e t e c t i o n i n T w i t t e r w i t h H i e r a r c h i c a l F u s i o n M o d e l