【2D-TAN论文学习】

weixin_44875026

已于 2023-08-30 19:31:01 修改

阅读量214

点赞数 1

文章标签：学习深度学习神经网络

于 2023-08-29 11:33:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44875026/article/details/132539231

版权

本文详细解读了1d卷积在特征处理中的作用，探讨了dilation参数和感受野的概念，聚焦论文中解决的时间依赖性和多模态融合技术。还介绍了论文的编码方法、稀疏采样策略以及独特的损失函数设计。消融实验验证了提议方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1d卷积的理解

对于1d卷积的一些理解
- 卷积的dilation参数
- 感受野
该论文解决的难点
论文的Pipline
Language 编码
Video 编码
稀疏采样策略( sparse sampling strategy )
多模态融合
他这里的卷积卷的是什么
损失函数
消融实验

对于1d卷积的一些理解

1d卷积相当于线性层，可以对特征进行降维，卷积核的通道数和特征的通道数是一致的，根据卷积核的数量可以生成对应数量的通道，相当于将多个通道的特征放一块进行组合，然后再生成卷积核数量的特征。

卷积的dilation参数

用于指定卷积核内部元素的间隔（跨度）大小。

感受野

网络层输出的特征图中的单个元素映射回原始输入特征中的区域大小

C层相对与B的感受野是（3，3），C层的感受野是（7，7）

该论文解决的难点

① 首先是是解决again，以前的方法都是分别考虑不同的候选距，而忽略了不同候选距之间的时间依赖性
② 多个候选距包含真实距，但不同的候选距表示不同的意思，视觉上相似的距难以区分

论文的Pipline

2D-TAN

Language 编码

通过GloVe embedding然后再经过3层LSTM，最终变成ds维的向量。

Video 编码

输入是原始的视频，由帧组成，首先将原始视频分成N个T帧的clips，之后通过对每个clip使用预训练的CNN模型最终每个clip变成dv维的向量，然后是候选特征，每一个候选距对应的视觉候选特征有两种方法，池化和堆叠卷积，这里用的是池化。
a，b分别是开始时间和结束时间

稀疏采样策略( sparse sampling strategy )

二维图上的每个点表示一个候选距，对该图进行稀疏采样，关键思想是去除与所选候选点有较大重叠的冗余矩，如下图所示

2D-TAN方法的稀疏采样图

下三角的区域是无效的，上三角区域中的蓝点表示的是候选距，具体的采样策略根据下边的式子

稀疏采样策略

当G（a，b）=1的时候就选用该候选距， ceil 函数是向上取整，mod是取余。

多模态融合

融合公式
fs和Fm分别表示查询编码和2D temporal feature map。1T表示的是一个全1向量的转置外边的|| ||F表示的是Frobenius normalization（归一化）之后再将得到的F经过卷积核为K的L层卷积，之后通过全连接层和sigmoid层得到每个候选距的分数。

他这里的卷积卷的是什么

论文中讲通过卷积可以学习到多个候选距之间的时间依赖。

损失函数

在这里插入图片描述
其中yi作为他的监督标签，通过真实距计算出Iou oi，然后通过阈值t min和t max进行缩放

交叉熵损失函数
二维图里边的每一个候选距都会用到，为什么要用yi等于这么奇怪的东西，为了当Iou值在最小和最大之间的时候最终模型预测的值应该是对应的概率而不是单纯最大和最小。

消融实验

在这里插入图片描述
这个实验表明我们提出的二维距是有效的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。