Channel Interaction Networks for Fine-Grained Image Categorization-笔记


沉睡在草稿箱的笔记


摘要

我们发现通道之间的细微差别可以帮助我们捕获细粒度识别所需要的细微差别。我们提出了一个 CIN channel interaction network,它可以捕获图像与图像之间的通道差距。对于一个图像,自通道交互 self-chaanel interaction 是寻找一个图像的通道间的联系。更进一步,我们使用一个更具比较性的 CCI ,contrastive channel interaction ,通过输入的一组图像,使用度量学习,让 CCI模块 寻找到跨样本之间的细粒度微小的差异。

简介

之前的大部分工作主要针对寻找 Part,或者是抽取的特征更好(比如双线性方案),首先不同的通道可能关联不同的 pattern,有着不同的语义信息。根据这个,我们去寻找每个独立的通道的互补信息,把互补的通道和这个通道聚合在一起。SCI 建模各个通道之间的联系,寻找互补线索。
SCI:在各个通道上,寻找互补信息
CCI:在不同图像的通道上,寻找对比信息

方法

CIN 使用 ResNet 作为 backbone网络, 提取出图片的 feature map。
在这里插入图片描述首先,两个 input image 会被 ResNet 处理,得到 feature map。
然后,为了计算每个特征图上通道的互补信息,SCI 会在不同通道之间建模,之后会将互补信息和原始 feature map 进行聚合
最后,CCI 在不同图像的通道之间进行通道级别的建模

SCI

之前的一些方法会 hightlight 那些最具有辨别力的通道,但是通道中丰富的信息就会被忽略很多。我们打算找到那些互补的信息,把它们整合进原始的feature map 中:
$ X ′ ∈ R c × h × w X ∈ R c × l Y = W X W = s o f t m a x ( X X T ∈ R c × c ) X' \in R^{c×h×w} \newline X \in R^{c×l} \newline Y = WX \newline W = softmax( XX^{T} \in R^{c×c}) XRc×h×wXRc×lY=WXW=softmax(XXTRc×c)$
其中 softmax 的处理:
在这里插入图片描述可以理解为:
Y i = W 1 X 1 + W 1 X 1 + . . . + W i X i Y_{i} = W_{1}X_{1} + W_{1}X_{1} + ... + W_{i}X_{i} Yi=W1X1+W1X1+...+WiXi
最后,我们再将 互补的特征图和原特征图相互结合:
Z = Φ ( Y ) + X Z = \Phi(Y)+X Z=Φ(Y)+X
Φ \Phi Φ 是一个 3*3的卷积

这个操作和 non-local net 进行了一个对比:


这里面觉得很招摇的就是正向相关和负向相关。


InteractDiffusion是一种基于对话控制的图像生成模型,其目的是通过对话控制图像的生成过程,来实现用户需求的精确控制。根据官方论文的描述,在这种模型中,生成器和对话控制模型相互作用,以生成更具语义一致性和可解释性的图像。 具体而言,InteractDiffusion模型将对话控制器嵌入到对抗式训练过程中,其目的是在条件生成图像的同时,同时生成与用户对话相对应的图像。这种方法可以用于生成带有特定属性的图像,例如特定的物体或场景。通过对话控制模型,用户可以控制生成器,以生成满足他们的需求的图像。 下面是这篇论文提出的InteractDiffusion模型的核心组件: - 明确对话建模:InteractDiffusion模型将对话控制器嵌入到生成图像的过程中,使得生成器可以通过对话控制器接受条件生成的输入和上下文,并生成与之相应的图像。这种对话建模的方法可以在不增加额外复杂度的情况下,提高模型生成图像时的语义一致性和可解释性。 - 双向条件生成:InteractDiffusion模型采用双向条件生成的方法,即通过对话控制器,生成器可以根据用户对输入和上下文的要求生成对应的图像,并且也可以根据生成的图像,生成相应的对话输出结果。这种方法使得模型在生成图像时能够有更好的灵活性和可控性。 - 对抗式训练:InteractDiffusion模型采用对抗式训练的方法,即结合生成器和判别器进行训练。在对抗式训练中,生成器的目标是生成逼真的图像,而判别器的目标是辨别生成器生成的图像和真实图像的区别。这种对抗式的学习方式可以使得生成器更加准确地生成逼真的图像,同时提高模型的鲁棒性和泛化能力。 请问你还有什么其他问题吗?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值