NLP学习—15.多模态研究方向及在文本分类、文本生成的应用

一、多模态简介

1.什么是多模态?

  我们生活中的多模态指的是文字、文本、语音信号、图片信息、视频信息等这些模态以及更广泛的触觉、嗅觉等这些信号区都可以算作一种模态。目前在人工智能领域的多模态交互一般集中在文本、图像、视频、音频等信号的结合上面。
  多模态学习(MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比 较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

2.多模态的技术点及典型应用

  多模态的技术点如下:

  • 多模态表示学习 (Representation)
    将实体化信息(文本、图片)通过向量来表示,分为联合表示与协同表示
    联合表示:将多个模态的信息一起映射到一个统一的多模态向量空间
    协同表示:将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之 间满足一定的相关性约束(例如线性相关)
    在这里插入图片描述
      多模态表示学习本质上是在向量空间当中对应的特征关系与原始信息是否具有一致性
  • 模态转化 (Translation)
    多模态转化也可称为映射 (Mapping),主要是将一个模态的信息 转化或映射为另一个模态的信息。比如:从图像模态转化为文本模态或者音频模态。
    主要应用:
    • 机器翻译(MachineTranslation) 、唇读(Lip Reading)和语音翻译 (Speech Translation)
    • 图片描述 (Image Captioning)与视频描述(Video Captioning)
    • 语音合成(Speech Synthesis)
  • 模态对齐 (Alignment)
    不同模态之间内容信息上的对齐;从来自同一个实例的两个甚至多个模态中寻找子成份之间的关系和联系。
    相关任务:给定一张图片和图片的描述,找到图中的某个区域以及这个区域在描述 中对应的表述;图像语义分割(Image Semantic Segmentation)
    在这里插入图片描述
  • 多模态融合(Fusion)
    将不同模态的信息作内容上的互补,联合多个模态的信息,进行目标预测(分类或者回归),属于 MMML 最早的研究方向之一,也是目前应用最广的方向,它还存在其他常见的别名,例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)
    相关任务 :
    • 视觉-音频识别(Visual-Audio Recognition)
    • 多模态情感分析(Multimodal sentiment analysis)
    • 手机身份认证(Mobile IdentityAuthentication)
  • 协同学习(Co-learning)
    不同模态多任务的学习方式,这个是多模态研究的主要技术点。通过利用资源丰富(比如数据量大)的模态的知识来辅助资源稀 缺(比如较小数据)的模态建立模型。协同学习本质上是利用不同模态资源的稀缺

二、在文本分类和文本生成中的应用

  这些任务基本都是和图像、音频等信息结合起来共同作用。

  • 讽刺检测
    基于多模态信息讽刺检测
    在这里插入图片描述
    在这里插入图片描述
    M u l t i − M o d a l   S a r c a s m   D e t e c t i o n   i n   T w i t t e r   w i t h   H i e r a r c h i c a l   F u s i o n   M o d e l
  • 7
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
《面向深度学习多模态融合技术研究综述》是何俊所著的一篇学术论文。该论文围绕着深度学习多模态融合这两个热门研究领域展开综述,探讨了多模态信息融合在深度学习中的应用与挑战。 论文首先介绍了深度学习的基本概念和发展现状。深度学习是一种模仿人脑神经网络的计算模型,具有分层次的结构和层级化的特征提取能力,逐渐成为机器学习领域的重要分支。随后,论文对多模态融合进行了详细说明。多模态数据是指来自于不同传感器或不同模态的数据,如图像、音频和文本等。多模态融合旨在将这些不同模态的数据信息进行整合,从而提升数据分析和理解的效果。 论文继续介绍了深度学习多模态融合中的应用。深度学习的强大特征提取能力和模式识别能力使其适用于多模态数据的处理。论文列举了一些典型的应用,如图像与文本的关联,音频与文本的关联等,同时也讨论了相关的模型和算法。此外,论文还提到了面向深度学习多模态融合技术在计算机视觉、自然语言处理和语音识别等领域的具体应用案例。 然后,论文对面向深度学习多模态融合技术的挑战进行了分析。包括数据不平衡、特征融合、模态融合、模型设计和评估等方面。并提出了一些解决方案和研究方向,如使用生成对抗网络进行数据增强和数据平衡、融合多个模态的特征表示、设计更加有效的深度学习模型等。 最后,论文总结了现有的研究成果和不足之处,并展望了未来的研究方向。总体而言,该论文以全面的视角回顾了面向深度学习多模态融合技术研究的进展和挑战,为相关领域的研究人员提供了重要的参考和启示。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值