- 多模态 -
文章平均质量分 81
多模态相关论文及项目实现~
夏天|여름이다
人工智能研究员,致力于计算机视觉,自然语言处理,语音处理,多模态模型,强化学习等相关研究。
展开
-
实用篇 | 关于Gradio快速构建人工智能模型实现界面,你想知道的都在这里
本文描述了gradio的各函数使用,以及关于图像,自然语言护理基于音频相关的所有实例模版~原创 2023-12-01 12:23:33 · 3408 阅读 · 1 评论 -
多模态 | Supervised Prototypical Contrastive Learning for Emotion Recognition in Conversation论文详解及实现
论文在对话中捕捉情绪在现代对话系统中起着至关重要的作用。然而,情感和语义之间的弱相关性给会话中的情感识别(ERC)带来了许多挑战。即使是语义相似的话语,情绪也可能因上下文或说话者而有很大差异。在本文中,为 ERC 任务提出了监督原型对比学习 (SPCL) 损失。利用原型网络,SPCL 旨在通过对比学习解决不平衡分类问题,并且不需要大批量。同时,我们设计了一个基于班级距离的难度度量函数,引入课程学习来减轻极端样本的影响。论文在三个广泛使用的基准测试中取得了最先进的结果。原创 2023-05-12 16:21:05 · 760 阅读 · 1 评论 -
数据集 | 基于语音(Speech)/多模态(Multimodal)的情绪识别数据集,格式及下载
RAVDESS 包含 24 名专业演员(12 名女性,12 名男性),用中性的北美口音说出两个词汇匹配的陈述。文件名由 7 部分数字标识符组成(例如,03-01-06-01-02-01-12.wav)。情绪(01 = 中性,02 = 平静,03 = 快乐,04 = 悲伤,05 = 愤怒,06 = 恐惧,07 = 厌恶,08 = 惊讶)。情绪强度(01 = 正常,02 = 强烈)。模态(01 = 全 AV,02 = 仅视频,03 = 仅音频)。文件名示例:03-01-06-01-02-01-12.wav。原创 2023-05-12 10:22:17 · 7317 阅读 · 2 评论 -
实用篇 | huggingface的一些应用指导
本文主要介绍hugging Face(拥抱脸)的简单介绍以及常见用法,用来模型测试是个好的工具~如下图所示左边框是各项任务,包含多模态(Multimodal),计算机视觉(Computer Vision),自然语言处理(NLP)等,右边是各任务模型。本文测试主要有。原创 2023-05-11 13:04:31 · 4109 阅读 · 0 评论 -
多模态 | 多模态中单模态中提取特征方法(代码)
在多模态任务中,有一种方法时在单模态中先各自提取各模态的特征,然后进行融合,本文主要实现各模态特征的提取。原创 2023-05-02 09:59:57 · 1697 阅读 · 0 评论 -
SER | 语音情绪识别 | TIM-NET_SER项目实现,以及训练自己的语音数据集,后期修改网络
大家好,今天复现的是目前语音情绪识别的SOTA论文,论文中文名称是时间建模的重要性: 用于语音情感识别的新型时空情感建模方法。论文中训练的数据集有英文德语等几个语音情绪识别中常见的语音情绪数据集,以对比精度权重等效果~各数据集的情绪数量不同,可参考以下代码论文地址 |项目地址 |一般语音训练对计算机的内存有要求,一般情况下建议内存超过12G(要不然很容易出现out of memery).原创 2023-04-14 15:31:27 · 1800 阅读 · 0 评论 -
论文篇 | 2010-2023,万字情绪识别(EmotionRecognition)论文总结【20231016更新】
情绪识别目前我所了解的有,基于人脸的情绪识别,基于声音的情绪识别,基于身体特征的情绪识别,基于脑电波的情绪识别,基于时空的情绪识别等。这篇博客主要是人脸表情/情绪识别(Face expression recognition/Face emotion recognition)/一般人脸情绪识别我自己把它分为image FER和 tensor FER 。有的虽然是实时检测人脸识别,因为输入是图片(image),如果输入的是视频为基础,或者带时间维度参数则属于动态人脸情绪识别。(仅表达自己分类标准,有问题可以原创 2022-04-05 19:56:50 · 6070 阅读 · 2 评论 -
多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解
情绪是人类行动的一个固有部分,因此,开发能够理解和识别人类情绪的人工智能系统势在必行。在涉及不同人的对话中,一个人的情绪会受到其他说话者的言语和他们自己在言语中的情绪状态的影响。在本文中,我们提出了基于 COntex- tualized Graph Neural Network的多模态情感识别COGMEN)系统,该系统利用了本地信息(即说话人之间的内/外依赖性)和全局信息(上下文)。建议的模型使用基于图谱神经网络 (GNN) 的架构来模拟对话中的复杂关系(本地和全局信息)。原创 2023-04-03 15:22:12 · 1854 阅读 · 0 评论 -
多模态 | 基于GNN的多模态情感识别技术COGMEN项目实现,代码分析,并训练自己的数据集,后期修改网络,运行全部过程以及经验总结
训练后,生成model_checkpoints目录,如下。对于已经有pytorch的情况,我只安装了以下命令。如果安装GPU版本,cuda版本需要11.7及以上。数据集:iemocap_4。对数据集进行处理,运行。原创 2023-04-03 15:27:03 · 2704 阅读 · 5 评论