深度学习
文章平均质量分 93
若年封尘
这个作者很懒,什么都没留下…
展开
-
跨模态检索论文阅读:Learnable Pillar-based Re-ranking for Image-Text Retrieval(LeadRR)基于可学习支柱的图像文本检索重排
图像-文本检索旨在弥合模态鸿沟,根据语义相似性检索跨模态内容。之前的工作通常侧重于成对关系(即一个数据样本是否与另一个样本匹配),但忽略了高阶邻接关系(即多个数据样本之间的匹配结构)。重新排序是一种流行的后处理方法,它揭示了在单模态检索任务中捕捉邻接关系的优越性。然而,将现有的重新排序算法直接扩展到图像文本检索中效果并不理想。本文从泛化性、灵活性、稀疏性和不对称性四个角度分析了原因,并提出了一种新颖的基于可学习支柱的重新排序范式。原创 2024-01-07 16:29:27 · 1674 阅读 · 3 评论 -
跨模态检索论文阅读:Plug-and-Play Regulators for Image-Text Matching用于图像文本匹配的即插即用调节器
在本文中,引入了[32]-[35]定义的调节器机制,其中可以通过自适应地优化具有合理的后向反馈的前向学习过程来改进网络,并验证了精心设计的监管操作可以在不需要额外数据和复杂结构的情况下,在获得准确的相互作用和进行跨模式的最佳聚合方面发挥巨大作用。更具体地说,我们提出了一种递归相关性调节器(RCR)和递归聚合调节器(RAR)来逐步促进图像-文本匹配过程,如图1所示。RCR学习每个特定单词/区域的自适应注意因子,以迭代地细化跨模式注意单元,为不同图像-文本对中语义不同的单词/区域获得更合理的注意分布。原创 2023-12-28 12:09:43 · 1828 阅读 · 4 评论 -
跨模态检索论文阅读:Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval
文本到图像的人物检索仍然是一项艰巨的任务,原因在于身份内部的显著差异以及视觉和语言之间的模式异质性。前一个挑战源于这样一个事实,即身份的视觉外观因姿势、视角、照明和其他因素而不同,而文本描述则因任意描述顺序和文本模糊性而不同。后一个挑战是跨模态任务中的主要问题,是由视觉和语言之间固有的表征差异造成的。为了应对上述两个挑战,文本到图像的人物检索的核心研究问题是探索更好的方法来提取具有区分性的特征表征,并设计更好的跨模态匹配方法来将图像和文本统一到一个联合嵌入空间中。原创 2023-12-17 20:17:09 · 1835 阅读 · 4 评论 -
A Differentiable Semantic Metric Approximation in Probabilistic Embedding for Cross-Modal Retrieval
跨模态检索旨在通过学习一个公共的表示空间来建立多个模态之间的对应关系。通常,图像可以在语义上匹配多个文本,反之亦然,这大大增加了这项任务的难度。为了解决这个问题,提出了概率嵌入来量化多对多关系。然而现有的数据集(例如MS-COCO)和度量(例如。,recall@k)由于非详尽的注释,不能完全表示这些多样性对应关系。基于这一观察结果,我们利用CIDEr计算的语义相关性来寻找潜在的对应关系。然后,我们提出了一个有效的度量标准,称为平均语义精度(ASP),它可以衡量检索集语义相关性的排序精度。原创 2023-12-08 18:52:28 · 1123 阅读 · 3 评论 -
跨模态检索Retrieve Fast, Rerank Smart:Cooperative and Joint Approaches for Improved Cross-Modal Retrieval
目前最先进的跨模态检索方法是基于 Transformer 的架构,通过交叉注意力机制对图像中的所有文字和对象进行关注,从而联合处理文本和视觉输入。这些模型虽然提供了无与伦比的检索性能,但也存在以下问题1)通常是从头开始预训练,因此可扩展性较差,2)存在巨大的检索延迟和效率低下问题,这使它们在现实应用中不切实际。为了解决这些关键差距,实现改进和高效的跨模态检索,我们提出了一种新颖的微调框架,可将任何预训练的文本-图像多模态模型转化为高效的检索模型。原创 2023-12-03 13:58:39 · 1190 阅读 · 3 评论 -
跨模态检索论文阅读:Learning Semantic Relationship among Instances for Image-Text Matching学习实例之间的语义关系实现图像-文本匹配
图像-文本匹配是连接图像和语言的桥梁,也是一项重要的任务,它一般通过学习跨模态的整体嵌入来实现两种模态之间高质量的语义对齐。然而,以往的研究只关注捕捉特定模态的样本内的片段级关系,例如图像中的突出区域或句子中的文本词,而通常不太关注捕捉样本和模态之间的实例级交互,例如多个图像和文本。因此,我们提出了一种新颖的分层关系建模框架(HREM),它能明确捕捉片段和实例级关系,以学习具有区分性和鲁棒性的跨模态嵌入。原创 2023-11-30 17:40:45 · 1697 阅读 · 3 评论 -
Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning视觉语言预训练任务SCL
简而言之,我们的贡献有三个方面。(1) 为了提高全局表征的全局到局部一致性,我们提出了一种新的预训练任务,称为语义填充学习(Semantic Com-pletion Learning,SCL),它能从未加掩码的数据中恢复缺失的语义信息,促进学习更具代表性的全局特征。(2) 我们设计了一种自适应视觉编码器,可以在图像和视频之间方便地传输多模态预训练知识。(3) 我们进行了多个视觉语言下游任务来证明语义完成学习和视觉编码器的通用性,包括视觉问题解答、视觉推理、图像文本检索和视频文本检索。原创 2023-11-28 18:45:13 · 1158 阅读 · 2 评论 -
跨模态检索论文阅读:Improving Cross-Modal Retrieval With Set of Diverse Embeddings利用多样嵌入集提高跨模态检索
跨图像和文本模态的跨模态检索由于其固有的模糊性而成为一项具有挑战性的任务:图像通常表现出各种情况,并且字幕可以与不同的图像相结合。基于集合的嵌入已经被研究作为这个问题的解决方案。它试图将样本编码为一组不同的嵌入向量,这些嵌入向量捕获样本的不同语义。本文提出了一种新的基于集合的嵌入方法,该方法在两个方面与以往的工作有所不同。首先,我们提出了一种新的相似性函数,称为光滑切角相似性,该函数旨在减轻现有相似性函数对基于集嵌入的副作用。原创 2023-11-26 22:30:31 · 1357 阅读 · 3 评论 -
跨模态检索综述A Survey of Full-Cycle Cross-Modal Retrieval: From a Representation Learning Perspective
图1.跨模态检索中的问题和挑战。原创 2023-08-26 12:42:27 · 1616 阅读 · 3 评论 -
跨模态检索论文阅读:Discrete-continuous Action Space Policy Gradient-based Attention for Image-Text Matching
现有的跨模态图文检索方法并没有明确地将不同的模态转换到一个共同的空间。同时,在图像-文本匹配模型中广泛使用的注意力机制不具备监督功能。我们提出了一种新颖的注意力方案,它将图像和文本嵌入投射到一个共同的空间,并直接根据评估指标优化注意力权重。所提出的注意力方案可视为一种监督注意力,无需额外注释。它通过一种新颖的离散-连续动作空间策略梯度算法进行训练,与之前的连续动作空间策略梯度算法相比,该算法在模拟复杂动作空间时更加有效。原创 2023-07-29 09:57:33 · 686 阅读 · 2 评论 -
怎么在Linux中用tmux跑深度学习模型
当我们SSH 登录远程服务器,打开一个远程窗口执行命令,网络中断再次登录的时候,是找不回上一次执行的命令的。因为上一次 SSH 会话已经终止了,里面的进程也随之消失了。最常见的就是使用vscode连接远程服务器跑的深度学习任务,自己的电脑中途断网了再次登录找不到上一次执行的命令。为了解决这个问题,即将会话与窗口"解绑":窗口关闭时,会话并不终止,而是继续运行,等到以后需要的时候,再让会话"绑定"其他窗口。这时就需要用到**Tmux**这个会话与窗口的"解绑"工具,将它们彻底分离。原创 2023-07-24 10:59:29 · 1301 阅读 · 4 评论 -
跨模态检索论文阅读:(ViLT)Vision-and-Language Transformer Without Convolution or Region Supervision
ViLT使用预训练的ViT来初始化交互的transformer,这样就可以直接利用交互层来处理视觉特征,不需要额外增加一个视觉encoder。文本特征输入部分,将文本看成一个词序列,通过word embedding matrix转化成word embedding,然后和position embedding进行相加,最后和modal-type embedding进行concate。原创 2023-07-17 16:15:00 · 830 阅读 · 3 评论 -
跨模态检索论文阅读:(PTP)Position-guided Text Prompt for Vision-Language Pre-training
在这项工作中,我们提出了一种新的位置引导的文本提示(PTP)范式,以提高用VLP训练的跨模态模型的视觉定位能力。具体来说,在VLP阶段,PTP将图像分为N×N块,并通过VLP中广泛使用的目标检测器识别每个块中的目标。然后,它通过鼓励模型预测给定区块中的目标或重新定义给定目标的区块,将视觉定位任务重新表述为给定PTP的填空问题,例如,在PTP中填写"[P]“或”[O]",“区块[P]中有一个[O]”。 这种机制提高了VLP模型的视觉定位能力,从而帮助它们更好地处理各种下游任务。原创 2023-06-23 12:18:14 · 1785 阅读 · 2 评论 -
跨模态检索2023年最新顶会论文汇总
我们的实验验证了我们的检索增强对比性(RECO)训练在几个具有挑战性的细粒度任务上大幅提高了CLIP的性能:例如,在斯坦福Cars上+10.9,在CUB-2011上+10.2,在最近的OVEN基准上+7.3。在本文中,我们提出了一种新的图像文本检索技术,被称为鲁棒的视觉语义嵌入(RVSE),它由新的基于图像和文本的增强技术组成,称为图像语义保护增强(SPAugI)和文本增强(SPAugT)。在全局和局部跨模态混合相似性的基础上,所提出的方法实现了最先进的检索性能,与最近的代表性方法相比,推理时间极短。原创 2023-06-22 11:47:00 · 3211 阅读 · 4 评论 -
跨模态检索最新高质量综述《Image-text Retrieval: A Survey on Recent Research and Development》
本文从四个方面对ITR方法进行了全面和最新的调查。通过将ITR系统剖析为两个过程:特征提取和特征对齐,我们从这两个角度总结了ITR方法的最新进展。在此基础上,对ITR系统的效率研究作为第三个角度进行了介绍。为了与时俱进,我们还从第四个角度对跨模态预训练的ITR方法进行了开创性的概述。最后,我们概述了ITR的通用基准数据集和评估指标,并对有代表性的ITR方法进行了准确性比较。本文最后还讨论了一些关键但研究不多的问题。原创 2023-06-17 14:21:28 · 7915 阅读 · 3 评论 -
跨模态检索论文阅读:Dissecting Deep Metric Learning Losses for Image-Text Retrieval(GOAL)
提出了一个通用框架GOAL来全面分析现有深度度量学习损失函数的梯度更新,并应用这个框架来帮助寻找VSE问题的更好目标。提出了一种新的方法,通过用梯度目标家族来优化模型,而不是使用损失函数,直接处理图像-文本检索任务。展示了对现有方法的持续改进,在COCO数据集的图像-文本检索任务中取得了最先进的结果。原创 2023-06-14 19:31:57 · 1645 阅读 · 5 评论 -
论文阅读:Towards a Unified View of Parameter-Efficient Transfer Learning对参数高效迁移学习的统一看法
参数高效的微调在NLP中是较新的方法,早期的代表工作是2019年发表的adapter。2021年开始有越来越多的人关注这一方向并有不同的方法被提出, 代表工作有prefix tuning, P-tuning, prompt tuning, bitfit, LoRA等。本文中提供了统一的角度对这些工作进行了分类。原创 2023-05-26 17:24:36 · 1771 阅读 · 3 评论 -
跨模态检索论文阅读:Multi-Grained Vision Language Pre-Training: Aligning Texts with VisualConcepts(X-VLM)
提出进行多粒度的视觉语言预训练,以处理文本和视觉概念之间的对齐问题。提出通过定位图像中的视觉概念来优化模型(X-VLM),并同时将文本与视觉概念对齐,其中的对齐是多粒度的。通过经验验证,我们的方法在微调中有效地利用了学到的多粒度对齐。 具有256×256图像分辨率的X-VLMbase在许多下游的V+L任务上比现有的最先进的方法取得了实质性的改进。原创 2023-05-16 16:17:13 · 634 阅读 · 4 评论 -
跨模态检索论文泛读:VisualSparta-利用加权的词袋进行大规模的文本到图像的检索
VisualSparta,一个高效的跨模态检索模型,同时保证检索精度;该模型结合了预训练编码器和细粒度级别的打分方式;大规模的图像倒排索引使得检索非常高效,适合现实场景的跨模态检索。原创 2023-05-10 10:38:08 · 668 阅读 · 3 评论 -
ALBEF:基于动量蒸馏的视觉语言表示学习
大规模的视觉和语言表征学习在各种视觉-语言任务上显示出有希望的改进。大多数现有的方法采用了基于Transformer的多模态编码器来联合建模视觉标记(基于区域的图像特征)和单词标记。由于视觉标记和单词标记是不一致的,多模态编码器要学习图像-文本的相互作用是很有挑战性的。在本文中,我们引入了一种对比性的损失,通过跨模态的注意力,将图像和文本表征进行ALign BEfore Fusing(ALBEF),这使得视觉和语言表征的学习更加接地气。原创 2023-05-01 21:03:50 · 1609 阅读 · 5 评论 -
跨模态检索论文阅读:Context-Aware Attention Network for Image-Text Retrieval
图像-文本双向检索在很大程度上依赖于每个图像-文本对的联合嵌入学习和相似性度量。先前的工作很少同时探索模态之间的语义对应和单一模态的语义关联。在这项工作中,我们提出了一个统一的上下文感知注意力网络工作(CAAN),它通过聚合全局上下文有选择地关注关键的局部片段(区域和单词)。具体来说,它同时利用全局模态间的对齐和模态内的关联来发现潜在的语义关系。考虑到检索过程中图像和句子之间的相互作用,模内关联来自于对区域-词排列的二阶关注,而不是直观地比较原始特征之间的距离。原创 2023-04-10 13:50:24 · 1376 阅读 · 6 评论 -
跨模态检索的持续学习
多模态表示和持续学习是与人类智能密切相关的两个领域。前者考虑了共享表示空间的学习,其中来自不同模态的信息可以进行比较和集成(我们关注语言和视觉表示之间的跨模态检索)。后者研究如何防止在学习新任务时忘记以前学过的任务。虽然人类在这两个方面表现出色,但深度神经网络仍然相当有限。在本文中,我们提出将这两个问题结合到一个连续的跨模态检索设置中,在其中我们研究了新任务引起的灾难性干扰如何影响嵌入空间及其有效检索所需的跨模态对齐。我们提出了一个通用框架,将训练、索引和查询阶段解耦。原创 2023-04-02 15:46:47 · 1409 阅读 · 2 评论 -
跨模态检索论文阅读:IMRAM
本文为了解决这一缺陷,提出了一种基于循环注意记忆网络的迭代匹配与循环注意记忆(IMRAM)方法,以渐进的方式探索图像和文本之间的细粒度对应关系,具有两个特点:(1)具有跨模态注意单元的迭代匹配方案,以对齐来自不同模态的片段,(2)记忆蒸馏单元用于将对齐知识从早期步骤细化到后续步骤。在Flickr8K、Flickr30K和MS COCO三个基准数据集以及一个用于实际商业广告场景的新数据集(即KW AI-AD)达到SOTA。原创 2023-03-23 13:47:30 · 482 阅读 · 3 评论 -
论文阅读:Adversarial Cross-Modal Retrieval对抗式跨模式检索
对抗性跨模态检索(ACMR)方法,它在对抗性学习的基础上寻求有效的共同子空间。对抗性学习是作为两个过程的相互作用来实现的。第一个过程,一个特征映射器,试图在公共子空间中生成一个模态不变的表示,并混淆另一个过程,即模态分类器,它试图根据生成的表示来区分不同的模态。我们进一步对特征映射器施加三重约束,以使具有相同语义标签的不同模态项的表示之间的差距最小化,同时使语义不同的图像和文本之间的距离最大化。原创 2023-03-09 20:14:53 · 1951 阅读 · 2 评论 -
CLIP论文阅读
迁移学习方式就是先在一个较大规模的数据集如ImageNet上预训练,然后在具体的下游任务上再进行微调。这里的预训练是基于有监督训练的,需要大量的数据标注,因此成本较高。近年来,出现了一些基于自监督的方法,这包括基于对比学习的方法如MoCo和SimCLR,和基于图像掩码的方法如MAE和BeiT,自监督方法的好处是不再需要标注。但是无论是有监督还是自监督方法,它们在迁移到下游任务时,还是需要进行有监督微调,而无法实现zero-shot。有监督模型:在新的数据集上需要定义新的分类器来重新训练。原创 2023-02-26 11:43:52 · 993 阅读 · 3 评论 -
详细介绍Sentence-BERT:使用连体BERT网络的句子嵌入
Sentence-BERT(SBERT)是一个使用连体和三连体BERT网络的修改,能够得出有语义的句子嵌入。这使得BERT能够用于某些目前为止还不适用于BERT的新任务。这些任务包括大规模的语义相似性比较、聚类和通过语义搜索的信息检索。BERT在各种句子分类和句子对回归任务上创造了新的最先进的性能。BERT使用交叉编码器:两个句子被传递给transformer网络并预测目标值。然而由于可能的组合太多,这种设置不适合各种配对回归任务。原创 2023-01-30 16:24:34 · 4063 阅读 · 2 评论 -
详细介绍文本检索基准BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models
本文提出了文本检索任务的基准,使用了来自不同领域和任务复杂性的 18 个现有数据集,并涵盖了用于展示检索和排名性能的各种模型,尤其是在迁移学习环境中。这项工作的主要贡献是为检索系统的零样本评估提出了一个标准化基准。它在各种任务和领域上测试检索系统。以前的(标准化的)基准测试包括一个狭窄的评估设置,无论是关于他们的任务(例如 MultiReQA 只专注于问答)还是关于他们的检索语料库(例如 KILT 只是从维基百科检索)。BEIR 克服了这个缺点,为新的检索方法提供了一个易于使用的评估框架。原创 2023-01-01 21:21:21 · 3411 阅读 · 7 评论 -
详细介绍Deeper Text Understanding for IR with Contextual Neural Language Modeling
神经网络为自动学习复杂的语言模式和查询-文档关系提供了新的可能性。神经IR模型在学习查询文档相关性模式方面取得了可喜的成果,但在理解查询或文档的文本内容方面却鲜有探索。本文研究利用上下文神经语言模型BERT,为IR提供更深入的文本理解。 实验结果表明,BERT的上下文文本表示比传统的单词嵌入更有效。与词包检索模型相比,上下文语言模型可以更好地利用语言结构,为用自然语言编写的查询带来很大的改进。将文本理解能力与搜索知识结合起来,形成一个增强的预训练BERT模型,可以使训练数据有限的相关搜索任务受益。原创 2022-12-25 13:16:33 · 1113 阅读 · 6 评论 -
Transformer Memory as a Differentiable Search Index论文阅读
可区分搜索索引(DSI),这是一种以统一方式学习端到端搜索系统的新范式,为下一代搜索铺平了道路。我们定义了新颖的索引和检索任务,将术语和文档之间的关系完全编码在Transformer模型的参数中。该论文提出了一些表示文件和文档的不同方式,并探索了不同的模型架构和模型训练策略。在Natural Questions数据集上进行的实验表明,无论是在标准的微调设置中,还是在零样本学习设置中,DSI的表现都优于常见的基准,如BM25和双编码器。原创 2022-12-14 16:30:43 · 1534 阅读 · 5 评论 -
详细介绍NLP对话系统
对话系统是模拟人与人交流的计算机系统。原创 2022-12-12 13:26:32 · 3599 阅读 · 3 评论 -
详细介绍NLP文本摘要
文本摘要也是文本生成的应用,旨在将文本或文本集合转换为包含关键信息的简短摘要。摘要应该涵盖最重要的信息,同时要连贯无冗余,并在语法上可读。原创 2022-12-09 17:03:32 · 5075 阅读 · 1 评论 -
NLP机器阅读理解
机器阅读理解(Machine Reading Comprehension, MRC)是让机器具有阅读并理解文章的能力。机器阅读理解是自然语言处理的核心任务之一,在很多领域有着广泛的应用, 比如问答系统、搜索引擎、对话系统等。机器阅读理解包含完形填空式、选择式、抽取式 和生成式四种主要类型。原创 2022-12-08 17:00:30 · 2231 阅读 · 0 评论 -
NLP关系抽取和事件抽取
关系抽取又称实体关系抽取,以实体识别为前提,在实体识别之后,判断给定文本中的任意两个实体是否构成事先定义好的关系,是文本内容理解的重要支撑技术之一,对于问答系统,智能客服和语义搜索等应用都十分重要。当前深度学习方法在关系抽取任务上取得了很好的效果,这是由于深度学习可以自动抽取文本特征。深度学习做关系抽取的方法有很多,诸如基于卷积神经网络的关系抽取和基于预训练模型的关系抽取等。其中基于卷积神经网络的方法是最典型的方法之一。卷积神经网络应用到关系抽取领域中的一个核心算法是PCNN算法。首先通过单词的词嵌入和位置原创 2022-12-08 08:45:00 · 4717 阅读 · 0 评论 -
NLP命名实体识别
命名实体识别(Named Entity Recognition, **NER**)是指在文本中识别出特殊对象,如人、地点、组织机构等。原创 2022-12-07 08:45:00 · 1936 阅读 · 3 评论 -
详细介绍NLP文本分类
基于统计方法的文本分类是文本分类的主要方法之一。统计方法首先是对原始输入数据进行预处理,一般包括分词、数据清洗和数据统计等,然后人工抽取特征并选择具体的统计模型设计分类算法。根据需要还可能进行特征选择和特征提取,常用的特征选择算法有文档频率、期望交叉熵、互信息等,特征提取转换原始的特征空间生成新的语义空间,能够较好地解决一词多义、一义多词等问题。常用的统计模型包括朴素贝叶斯算法、支持向量机算法等。朴素贝叶斯定理:条件概率:事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作原创 2022-12-06 16:17:16 · 2403 阅读 · 0 评论 -
NLP词向量技术
词向量(Word Vector)是对词语义或含义的数值向量表示,包括字面意义和隐含意义。 词向量可以捕捉到词的内涵,将这些含义结合起来构成一个稠密的浮点数向量,这个稠密向量支持查询和逻辑推理。原创 2022-12-06 11:02:05 · 2328 阅读 · 2 评论 -
详细介绍NLP关键词提取算法
详细介绍NLP关键词提取算法原创 2022-12-05 17:07:35 · 3170 阅读 · 0 评论 -
详细介绍NLP中文分词原理及分词工具
本文详细介绍了中文分词方法的原理,以及常用的分词工具。原创 2022-12-05 13:01:18 · 5870 阅读 · 3 评论 -
详细介绍ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
ERNIE 3.0框架,在包括纯文本和知识图谱的4TB语料库上预训练一个知识增强的100亿参数模型。为了处理语言理解和生成的任务,ERNIE 3.0设计了一个统一的预训练框架,整合了自编码网络和自回归网络。我们在来自不同任务范式和领域的各种数据集上构建了广泛的实验,结果表明,与之前最先进的预训练模型相比,ERNIE 3.0是有效的。原创 2022-12-05 08:00:00 · 4467 阅读 · 7 评论 -
详细介绍百度ERNIE 2.0:A Continual Pre-Training Framework for Language Understanding
为了从训练语料中提取词汇、句法和语义信息,我们提出了一个名为**ERNIE 2.0**的持续预训练框架,该框架逐步建立预训练任务,然后通过持续的多任务学习在这些构建的任务上学习预训练模型。基于这个框架,我们构建了几个任务,并训练ERNIE 2.0模型来捕捉训练数据中的词汇、句法和语义方面的信息。原创 2022-11-24 11:20:33 · 1361 阅读 · 3 评论