扑了个猫-CSDN博客

原创跨模态图文检索：多模态交互主题增强模型

《Multi-modal Mutual Topic Reinforce Modeling for Cross-media Retrieval》（2014 ACM）今天分享一篇年代有点久远的文章。这篇文章提出了一个基于主题模型（topic model）的跨模态检索方法M3R。主要思想该文的主要思想是建立一个联合的跨模态概率模型，用监督学习的方式，通过跨模态的交互主题强化，自适应地学习一组语义上有意义的潜在主题。具体一点说，M3R利用的是贝叶斯建模过程，将辅助信息（类别、标签等）纳入这个建模过程中，把语

2020-12-31 21:12:20 1560

原创跨模态图文检索：使用生成模型改进文本-视觉跨模态检索

《Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models》（2018 CVPR）这篇文章提出了一种改进的跨模态检索方法，即，将生成式模型纳入文本视觉特征嵌入中，以进行跨模态检索。传统的跨模态检索用的都是高层的全局抽象特征，而这篇文章还引入了基于两种生成模型的局部底层特征，从而捕捉到两种模态的数据之间更加细粒度的关联。主要思想提出的框架如图所示：整个系统由3条训练路

2020-12-31 20:57:11 1139

原创多模态检索之跨域图像转换

《Multimodal Unsupervised Image-to-Image Translation》这篇文章解决了跨域图像转换的问题。主要思想是将图像的特征表示分解成2个部分：content code和style code。其中，content code不随领域的改变而改变，而style code则表示特定于领域的属性。以这张图为例：左边的豹子和右边的猫属于不同的类别，但是通过提取豹子的某些域不变特性（如轮廓、五官大小等等），并将它的content code和猫的某些特有的style code结

2020-12-31 20:26:29 974

原创跨模态检索之文本视频检索（Text to Clip）（3）

《Learning Joint Embedding with Multimodal Cues for Cross-Modal Video-Text Retrieval》（2018 ACM）在这篇文章之前，最优的跨模态视频文本检索方法是将多个视频帧进行合并，求均值，然后作为图像特征输入到图文检索框架中，从而取得最佳检索结果。但是，作者认为这样是不够的，因为这类方法没有充分地利用视频中的信息，例如时间信息、动作信息、声音信息等等。这在一定程度上限制了视频文本检索的鲁棒性。因此，作者想要将更多的视频特征用在检

2020-12-31 16:18:43 1201 1

原创 Ubuntu上vscode报错——pause: not found

下面展示一些内联代码片。#include<iostream>using namespace std;int main(){ system("pause"); return 0;}这串代码放在windows系统的vscode上并不会报错，而是闪现一个窗口；但是在Ubuntu的vscode中会有如题所示的报错。这个时候只需加上一条编译预处理命令即可：#include<iostream>#include<unistd.h>using namespa

2020-10-22 10:04:18 1290 1

原创 break和return语句的区别

break：跳出所在的循环体；return：结束整个方法（函数）

2020-10-13 19:29:15 509

原创跨模态图文检索：浅谈deep-SM

《Cross-Modal Retrieval With CNN Visual Features: A New Baseline》（2017 IEEE）研究背景与动机在此之前，基于深度模型的跨模态检索方法中，大多数都用传统的视觉特征（如BoVW）来作为网络的输入，从而进行跨模态检索。目前还没有研究CNN视觉特征对跨模态检索的影响，而那些传统的特征提取技术限制了图像识别的性能。于是，作者在这篇文章中提出了深度语义匹配方法（简称deep-SM）。这个方法是基于之前被提出的SM方法改进的。SM方法是通过学习浅

2020-09-25 16:35:04 1749 1

原创跨模态图文检索：浅谈SPGCM

《Group-Invariant Cross-Modal Subspace Learning》（2016 IJCAI）研究背景与动机大多数的跨模态检索方法严重依赖语义标签，而获取语义标签通常都非常昂贵且耗时。因此，作者在这篇文章中提出了一个新的无监督方法SPGCM。这是一个基于子空间的跨模态检索方法，用来发现无监督跨模态学习的最优公共子空间。方法具体来说，这篇文章的方法是，通过余弦相似度度量，将类聚类项转化为类CCA（典型相关分析）项，从而得到一个广义的CCA模型。当样本之间的潜在聚类指标相同时，组

2020-09-25 16:17:54 570

原创【JAVA】定义成员变量（全局变量）报错解决方法

这里以最简单的hello world代码为例。报错代码：package practice;public class Helloworld{ int i=10; public static void main(String[] args){ System.out.println(i); }}将代码修改为：package practice;public class Helloworld{ public static final int i=10; public static voi

2020-09-24 21:26:16 822

原创 Ubuntu anaconda安装pytorch后显示no module named 'torch'解决办法

如题。在Ubuntu中安装了anaconda3，并安装pytorch之后：conda activate pytorch然后输入python进入编辑器。但是在编辑器里输入>>>import torch却报错“no module named torch”。遇到这个问题之后上网把现有的所有方法都试了一遍，都没能成功解决，甚至还重装了好几遍anaconda和pytorch。万...

2020-04-07 14:12:33 4974 4

原创跨模态检索之文本视频检索（Text to Clip）（2）

《Cross-Modal and Hierarchical Modeling of Video and Text》（2018 ECCV）这篇文章主要介绍了一个叫做分层序列嵌入（Hierarchical Sequence Embedding, HSE）的通用模型，其作用是对不同模态的数据进行分层建模并利用模态间的对应关系来学习模型参数。文章以文本和视频之间的检索为例进行介绍，并在大型数据集上做了实...

2020-03-29 17:36:31 1467 1

原创跨模态检索之文本视频检索（Text to Clip）

《Multilevel Language and Vision Integration for Text-to-Clip Retrieval》（2018 CVPR）这篇文章引入了一个多层的模型，输入一个描述某个动作的查询语句，就可以从一段没有经过修剪的视频中找出对应的片段。首先是第一个阶段，在temporal segment proposal阶段注入文本特征。该步骤通过SPN（Segment ...

2020-03-29 17:33:00 2679

原创 Face2Voice：人脸与声音之间的跨模态检索与识别（2）

《On Learning Associations of Faces and Voices》（2018 ECCV）这篇文章参考了我前面提到的《Seeing Voices and Hearing Faces Cross-modal biometric matching》，并且在实验部分和SVHF方法进行了比较。SVHF文章中将面部语音匹配任务看作是一个二元决策问题，而这篇文章则把这个任务看作是最近...

2020-03-29 17:25:44 845 5

原创 Face2Voice：人脸与声音之间的跨模态识别与检索

《Seeing Voices and Hearing Faces Cross-modal biometric matching》（2016CVPR）这篇文章围绕的一个核心任务是跨模态生物特征识别，即给定脸部图像或视频，确定它对应于给定的音频中的哪一个；或者给定声音的音频片段，确定它对应于两个或多个面部图像或视频中的哪一个。文章中介绍了三种框架，分别对应三种不同的任务：第一个static网络用...

2020-03-29 17:20:28 1484

原创关联规则（Association Rules）与图像检索

《A New Multimodal Fusion Method Based on Association Rules Mining for Image Retrieval》（2017 IEEE）所谓关联规则，是反映一个事物与其他事物之间的相互依存性和关联性，用于从大量数据中挖掘出有价值的数据项之间的相互关系。常用的指标是support和confidence。Support表示几个关联的数据在数据...

2020-03-29 17:13:27 844

原创遥感图像检索之基于图（Graph）的三层结构

《A Three-Layered Graph-Based Learning Approach for Remote Sensing Image Retrieval》（2016 IEEE）这篇文章提出了一种基于图（graph）的三层框架来进行遥感图像检索，这个方法的特点在于将整体特征和局部特征相互融合起来，得到更精确的检索结果。这里贴一下完整的网络结构。首先是第一层。第一层又细分为两个步骤：...

2020-03-29 16:41:29 944

原创遥感图像检索之关联规则（Association Rules）的巧用

《Semantic Retrieval for Remote Sensing Images using Association Rules Mining》（2015 IEEE）在遥感图像检索中，低级特征与高级语义之间的差异是一个待解决的难题。基于低级特征的图像检索中，存在图像尺寸过大，描述不完整，准确性差等问题；而基于高级语义信息的理论和技术比较有限。因此，这篇文章提到了一种数据挖掘技术，名为“...

2020-03-29 16:31:20 396

原创跨模态图文检索：浅谈SCRATCH

《SCRATCH: A Scalable Discrete Matrix Factorization Hashing for Cross-Modal Retrieval》（2018 ACM）这篇文章提出了一种新的跨模态检索方法：SCRATCH。这是一种有监督的哈希方法，主要是针对损失函数和迭代优化的环节进行改进，以期减少构造哈希码过程中产生的量化误差，得到更高的精确度。SCRATCH方法首先用...

2020-03-29 16:20:34 835

原创遥感图像检索：浅谈MLIRM

《Multilabel Remote Sensing Image Retrieval Using a Semisupervised Graph-Theoretic Method》（2018 IEEE）这篇文章在多标签遥感图像检索的框架中引入了一种半监督图论方法，该方法仅需要少量具有多标签特征的训练图像即可在较短的时间内精确地在目标集中检索出和query图像相似的遥感图像。所提出的方法包括四个主...

2020-03-29 15:46:38 1572

原创跨模态图文检索：浅谈MASLN

《Modal-adversarial Semantic Learning Network for Extendable Cross-modal Retrieval》（2018 ACM）当目标集中的类别⊆源集的类别时，从源集到目标集的检索被称为“不可扩展的(non-extendable)”检索；若二者之间不是包含关系，则成为“可扩展的(extendable)”检索。现有的大多数检索方式都是用来进行...

2020-03-29 15:37:48 979

原创跨模态图文检索：浅谈IMRAM与VSRN

一.《IMRAM：Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval》这是一篇2020年新鲜出炉的CVPR文章，后面简称IMRAM，趁着还热乎赶紧来欣赏一下。首先贴一下IMRAM在MSCOCO数据集上的表现：这是在COCO数据集上的结果，总体来看IMRAM和VSRN这...

2020-03-29 14:24:40 3986 11

weixin_44390691的博客