Learning Feature Descriptors using Camera Pose Supervision阅读笔记（论文版）

626626626

于 2024-03-20 21:46:12 发布

阅读量2k

点赞数 50

文章标签：笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46078886/article/details/136889591

版权

首先指出问题：现有的描述符学习框架通常需要用于训练的特征点之间的地面真实对应关系，但是获取大规模这样的数据是困难的，作者提出了一种基于从图像之间的相对相机姿态学习特征描述符，利用极线约束来约束网络学习方向。

代码过程讲解可以看Learning Feature Descriptors using Camera Pose Supervision阅读笔记（代码版）-CSDN博客

网络模型

作者使用的是ResNet50网络的前三个模块，输入图像x（480*640）batchsize=5，x1是经过网络第一个模块输出的，首先经过初始的卷积和池化，分辨率降到原来的1/4，然后经过第一层x1为（5，256，120，160），x2为第二个模块输出，x2为（5，512，60，80），然后经过第三个模块为x3，x3为（5，1024，30，40），共享网络到此结束，下面是输出粗级别图和细级别图。

x3经过一个1*1的卷积核的卷积层，输入通道为1024，输出通道为128，然后经过一个bn层和激活层得到粗级别图为xc（5，128，30，40）。

细级别图，x3经过一个上采样过程使用插值方法，变为（5，1024，60，80）在经过一个卷积核为3*3的卷积层添加Padding输入通道为1024，输出为512，变为（5，512，60，80），这个时候再与x2进行通道维度的拼接变为（5，1024，60，80），再通过一个3*3卷积核的卷积层，添加padding，输入通道1024，输出通道为512变为（5，512，60，80），然后再经过一个上采样过程使用插值方法，变为（5，512，120，160）在经过一个卷积核为3*3的卷积层添加Padding输入通道为512，输出为256，变为（5，256，120，160），这个时候再与x1进行通道维度的拼接变为（5，512，120，160），再通过一个3*3卷积核的卷积层，添加padding，输入通道512，输出通道为256变为（5，256，120，160），最后再经过一个1*1卷积核的卷积层，输入通道为256输出通道为128，变为xf（5，128，120，160）。

xc为粗级别图，分辨率为原图大小的1/16，xf是细级别图分辨率为原图大小的1/4。

至此粗级别图分辨率是（30，40）原图边长的1/16，细级别图是（120，160）原图边长的1/4。其中粗级别图上面已经介绍怎么出来的，就是经过ResNet50网络的前三个模块后再经过一个卷积bn和池化，而细级别图是经过上采样跳跃连接卷积等操作。

损失函数：

极线距离约束，其中h1->2（x1）是第一张图特征点x1对应第二张图的期望点x2，表示x2距离极线Fx1的距离，其中基础矩阵Fx1就是x2的极线。

但是只有这样不太行，他只会使网络朝着靠近极线去而不会靠近对应的点，所以需要一个反投影操作，仅使用极线损失只会鼓励预测的匹配点位于极线上，而不是靠近地面真实对应位置（该位置位于极线上的未知位置）。为了提供额外的监督，我们额外引入了循环一致性损失。这种损失鼓励点的前向-后向映射在空间上接近自身。

h2->(h1->2（x1))是将网络输出的第二张图对应的期望点再计算对应第一张图的点，然后将计算出的点与真实选中的特征点计算欧氏距离

所以损失函数又变为

这个图就详细说明了上面的损失函数的计算过程。

计算对应点的方式是，在第一张图提取特征点可以使用随机也可以使用SIFT，但是在实际用于训练的点会经过一些检测剔除操作。

首先把提取的特征点坐标归一化到[-1,1],然后在粗级别图上（30，40，128）进行采样描述子，使用双线性插值。与第二张图的粗级别图进行相关性操作（内积），并且进行softmax操作，接着使用每个点的坐标乘上每个点的概率，得到最终的期望点。

其中M1是第一张图中特征点描述符，M2是第二张图描述符。

上面的x2=h1->2（x1）就是这样计算的

因为如果分布比较集中的话他的标准差就小，如果分布不集中们就证明概率不是在一个区域出现大值，说明就置信度不高，所以加上方差置信度最终损失函数。

求倒数，因为标准差大的表示预测不准确，标准差小的表示预测准确，标准差较小的样本可能对模型的训练贡献更大，因为它们代表着相对“容易”预测的情况。相反，标准差较大的样本可能对模型的训练贡献较小，因为它们代表着相对“困难”预测的情况。

本文为了减少计算量，提出了一种由粗到细的匹配方法，先在粗级别图上匹配得到一个期望点，然后根据这个期望点在细级别图上开辟一个窗口（细级别图边长的1/8）进行匹配.上面那个损失函数在粗和细级别都会训练反向传播。

这篇论文阅读感想：

1.展示了仅使用相机姿态就足以学习到良好的描述符

2.设计了新的损失函数极线约束和反投影计算点之间的欧氏距离，仅需要相机相对姿态就可以训练。

3.使用了从粗到细降低计算成本。

关注

50
点赞
踩
30

收藏

觉得还不错? 一键收藏
1
评论
Learning Feature Descriptors using Camera Pose Supervision阅读笔记（论文版）

首先指出问题：现有的描述符学习框架通常需要用于训练的特征点之间的地面真实对应关系，但是获取大规模这样的数据是困难的，作者提出了一种基于从图像之间的相对相机姿态学习特征描述符，利用极线约束来约束网络学习方向。代码过程讲解可以看。
复制链接

扫一扫

626626626 CSDN认证博客专家 CSDN认证企业博客

码龄5年

9: 原创

73万+: 周排名

7万+: 总排名

7066: 访问

: 等级

263: 积分

115: 粉丝

170: 获赞

4: 评论

125: 收藏

私信

关注

热门文章

最新评论

Learning Feature Descriptors using Camera Pose Supervision阅读笔记（代码版）
CSDN-Ada助手: 恭喜用户第5篇博客发布成功！通过学习Feature Descriptors并结合Camera Pose Supervision，展现了您对计算机视觉领域的深入探索和研究。希望您能够继续保持创作的热情，不断探索新的研究方向和技术应用。或许下一步可以尝试探讨如何将该方法应用于实际场景中，或者结合其他领域的知识进行交叉研究，相信会有更多精彩的成果呈现在我们面前。期待您的下一篇作品！
Learning Feature Descriptors using Camera Pose Supervision阅读笔记（论文版）
CSDN-Ada助手: 恭喜您撰写第6篇博客“Learning Feature Descriptors using Camera Pose Supervision阅读笔记（论文版）”！您对论文内容进行了深入的阅读和理解，分享了宝贵的学习心得，让读者也受益匪浅。接下来，我建议您可以尝试将自己的实践经验与论文内容相结合，分享更多关于特征描述符学习的实际案例和应用场景，让读者更直观地理解其中的价值和意义。期待您更多精彩的创作！
R2D2: Repeatable and Reliable Detector and Descriptor阅读笔记
CSDN-Ada助手: 恭喜您发布了第四篇博客“R2D2: Repeatable and Reliable Detector and Descriptor阅读笔记”，内容看起来非常有深度和价值！希望您能继续保持创作的热情和持续输出优质的内容。或许在下一篇博客中，可以尝试结合自己的实践经验或案例分析，进一步丰富内容，让读者更加容易理解和应用所学知识。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
第一周学习记录：深度学习和Pytorch基础
CSDN-Ada助手: 恭喜你开始了博客创作的旅程！标题中提到的深度学习和Pytorch基础是一个非常有趣且热门的话题。很高兴看到你在第一周就开始记录学习进程，这无疑是一个很好的开始。在下一篇博客中，或许你可以分享一些你在学习深度学习和Pytorch基础过程中遇到的具体挑战，以及你是如何克服它们的。这样的分享将对其他想要学习这些技术的读者非常有帮助。希望你能够继续保持谦虚的态度，并且继续享受博客创作的乐趣！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
第二周学习记录，卷积神经网络
CSDN-Ada助手: 评论：非常高兴看到您持续创作，并分享了关于卷积神经网络的学习记录。通过将网络放到GPU上，您探索了提升计算效率的方法，这是非常重要的一步。希望您继续坚持并深入研究卷积神经网络，它在计算机视觉和图像识别领域有着广泛的应用。此外，关于卷积神经网络，您可以进一步了解数据增强技术，它可以帮助您通过对训练数据进行一系列变换，增加数据的多样性，从而提高网络的泛化能力。同时，了解递归神经网络（RNN）也是一个不错的扩展知识，它在自然语言处理和序列数据处理方面有着很好的表现。谦虚地说，我相信您在学习和实践中会取得更大的进步。期待看到您未来更多的博客分享，继续努力！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。