如何理解神经网络中通过add和concate的方式融合特征?

下面的解释出自上面的链接

对于两路输入来说,如果是通道数相同且后面带卷积的话,add等价于concat之后对应通道共享同一个卷积核。下面具体用式子解释一下。由于每个输出通道的卷积核是独立的,我们可以只看单个通道的输出。假设两路输入的通道分别为X1, X2, …, Xc和Y1, Y2, …, Yc。那么concat的单个输出通道为(*表示卷积):

Z concat = ∑ i = 1 c X i ∗ K i + ∑ i = 1 c Y i ∗ K i + c Z _ { \text {concat} } = \sum _ { i = 1 } ^ { c } X _ { i } * K _ { i } + \sum _ { i = 1 } ^ { c } Y _ { i } * K _ { i + c } Zconcat=i=1cXiKi+i=1cYiKi+c

而add的单个输出通道为:

Z a d d = ∑ i = 1 c ( X i + Y i ) ∗ K i = ∑ i = 1 c X i ∗ K i + ∑ i = 1 c Y i ∗ K i Z _ { a d d } = \sum _ { i = 1 } ^ { c } \left( X _ { i } + Y _ { i } \right) * K _ { i } = \sum _ { i = 1 } ^ { c } X _ { i } * K _ { i } + \sum _ { i = 1 } ^ { c } Y _ { i } * K _ { i } Zadd=i=1c(Xi+Yi)Ki=i=1cXiKi+i=1cYiKi

因此add相当于加了一种prior,当两路输入可以具有“对应通道的特征图语义类似”(可能不太严谨)的性质的时候,可以用add来替代concat,这样更节省参数和计算量(concat是add的2倍)。FPN[1]里的金字塔,是希望把分辨率最小但语义最强的特征图增加分辨率,从性质上是可以用add的。如果用concat,因为分辨率小的特征通道数更多,计算量是一笔不少的开销

FPN网络中的连接方式

Resnet是做值的叠加,通道数是不变的,DenseNet是做通道的合并。你可以这么理解,add是描述图像的特征下的信息量增多了,但是描述图像的维度本身并没有增加,只是每一维下的信息量在增加,这显然是对最终的图像的分类是有益的。而concatenate是通道数的合并,也就是说描述图像本身的特征增加了,而每一特征下的信息是没有增加。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值