自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 读论文:TSJNet

多模态图像融合涉及将不同模态的互补信息集成到一张图像中。目前的方法主要集中在使用单个高级任务来增强图像融合,例如将语义或对象相关信息合并到融合过程中。这种方法在同时实现多个目标方面带来了挑战。我们引入了一个名为 TSJNet 的目标和语义感知联合驱动融合网络。TSJNet包括以串联结构排列的融合、检测和分割子网络。它利用从双高级任务派生的对象和语义相关的信息来指导融合网络。此外,我们提出了一种具有双并行分支结构的局部显着特征提取模块,以完全捕获跨模态图像的细粒度特征,并促进模态、目标和分割信息之间的交互。

2024-09-02 18:30:44 1225

原创 读论文:基于梯度特征融合的皮肤癌分类的小波变换注意模块

皮肤癌是一种非常危险的癌症类型,需要从经验丰富的医生中准确诊断。为了帮助医生更有效地诊断皮肤癌,计算机辅助诊断 (CAD) 系统可能非常有帮助。在本文中,我们提出了一种新的模型,该模型使用一种新的注意机制来确定病变空间维度和对称性特征的差异,从而基于对称性、纹理和颜色的一致性等关注不同类别的差异。此外,为了考虑不同类别的病变边界的变化,我们采用基于梯度的小波和软注意辅助特征融合来提取皮肤病变的边界信息。

2024-08-29 13:28:27 560

原创 读论文:NEURAL ARCHITECTURE SEARCH WITHREINFORCEMENT LEARNING

神经网络是强大而灵活的模型,可以很好地处理图像、语音和自然语言理解中的许多困难的学习任务。尽管取得了成功,但神经网络仍然难以设计。在本文中,我们,以最大化在验证集上生成架构的预期准确性。在 CIFAR-10 数据集上,我们的方法从头开始可以设计一种新颖的网络架构,该架构在测试集准确性方面可与最好的人类发明架构相媲美。我们的 CIFAR-10 模型的测试错误率为 3.65,比之前的使用类似架构方案的最先进模型快 0.09 个百分点,比之前最先进的模型快 1.05 倍。

2024-08-13 21:04:47 609

原创 读论文:Searching for MobileNetV3

基于互补搜索技术和新颖的架构设计的组合展示了下一代 MobileNets。MobileNetV3 通过硬件感知网络架构搜索 (NAS) 与 NetAdapt 算法相结合调整为手机 CPU,然后通过新颖的架构进步进行改进。本文开始探索自动搜索算法和网络设计如何协同工作以利用改进最新技术的互补方法。通过这个过程,创建了两个新的 MobileNet 模型来发布:MobileNetV3-Large 和 MobileNetV3-Small,它们针对高资源和低资源用例。

2024-08-10 17:18:58 900

原创 读论文:Multimodal Transformer for Unaligned Multimodal Language Sequences

多模态人类语言时间序列数据建模的两个主要挑战:1)由于每个模态序列的采样率可变而导致的固有数据未对齐;2)跨模态元素之间的长期依赖关系。引入了多模态转换器 (MulT) 以端到端的方式通用解决上述问题,而无需显式对齐数据。模型的核心是定向成对跨模态注意,它关注跨不同时间步长的多模态序列之间的交互,并潜在地将流从一个模态适应到另一个模态。

2024-07-17 09:19:55 943

原创 多模态情感识别:Progressive Modality Reinforcement for Human Multimodal Emotion Recognition from Unaligned M

基于跨模态Transformer最新进展的渐进模态强化 (PMR) 方法。我们的方法引入了一个消息中心来交换与每个模态的信息。消息中心向每个模态发送公共消息,并通过跨模态注意加强它们的特征。反过来,它还从每个模态中收集强化特征,并使用它们来生成强化的公共消息。通过重复循环过程,公共消息和模态的特征可以逐步相互补充。

2024-07-14 17:49:17 1060

原创 Integrating color cues to improve multimodal sentiment analysis in social media(整合颜色提示以改进社交媒体中的多模态情)

Abstract视觉和文本模态之间共同语义特征的现有方法往往忽略了色彩信息的重要性,而色彩信息在情感表达中起着至关重要的作用。本文提出了一种名为ICCI的新模型,旨在通过整合颜色线索来增强社交媒体中的多模态情感分析,以解决现有方法的局限性。该模型利用图像-文本对的语义信息和图像的颜色线索来提高情感分析的准确性。该模型包括一个特征提取模块,该模块从图像和文本中提取语义特征,以及从图像中提取颜色特征。此外,特征交互模块采用交叉注意力机制,实现语义特征和颜色特征之间的信息交互。

2024-07-12 15:09:10 1529

原创 多模态情感识别:TMT(Token-disentangling Mutual Transformer)

TMT包括多模态情感 Token disentanglement 和 Token mutal Transformer两部分组成,在Token disentanglement加入了一个Token separation encoder,能够有效的将模态间的一致性特征Token从每个模态内情感异构特征Token中分离出来,从而使情感相关的一致性和异质性信息能够分离且全面表示。Token mutal Transformer通过使用双向查询学习交互和融合解开的特征标记。

2024-07-08 19:50:44 1396

原创 How Intermodal Interaction Affects the Performance of Deep Multimodal Fusion for Mixed-Type Time Ser

不同融合方法的性能可能会受到模态间交互的方向和强度的影响。研究表明,早期和中间融合方法擅长分别捕获细粒度和粗粒度的跨模态特征。这些发现强调了模态间交互在确定 MTTS 预测最有效的融合策略方面的关键作用。

2024-07-07 15:12:43 728 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除