双流神经网络

最新推荐文章于 2025-03-16 14:00:00 发布

会飞的丑橘

最新推荐文章于 2025-03-16 14:00:00 发布

阅读量2.2k

点赞数 29

分类专栏：学习笔记文章标签： python 人工智能神经网络深度学习

本文链接：https://blog.csdn.net/weixin_45387588/article/details/135193441

版权

学习笔记专栏收录该内容

10 篇文章

订阅专栏

双流神经网络第一篇

双流网络最早由Karen Simonyan等人于2014年提出，改论文是引入深度学习后，双流法处理行为识别的开山之作。该文解决了如何通过卷积神经网络同时获取时间（光流）、位置信息（普通食品）。

论文中用于视频分类的双流结构

引入了光流（Optical flow），用于表示时间信息。对于RGB/光流都是通过2D卷积提取特征。最后融合也比较直接。

论文链接：chrome-extension://icfnljfpacimpcbpammmbclmhenimhfc/pdf-viewer/web/viewer.html?file=https%3A%2F%2Fproceedings.neurips.cc%2Fpaper_files%2Fpaper%2F2014%2Ffile%2F00ec53c4682d36f5c4359f4ae7bd7ba1-Paper.pdf

双流网络+新特征融合方式

“Convolutional Two-Stream Network Fusion for Video Action Recognition”

2016年Christoph Feichtenhofer等人认为之前的双流模型，特征融合过于简单，希望找到更好的融合方式。通过各种实验，找到了合适的方式。几处可以特征融合的位置。几种特征融合的方式。论文使用的特征融合模型结构，主要就是利用了3D卷积和3D池化进行特征融合。仍存在问题：模型过于简单。

论文链接：chrome-extension://icfnljfpacimpcbpammmbclmhenimhfc/pdf-viewer/web/viewer.html?file=https%3A%2F%2Fopenaccess.thecvf.com%2Fcontent_cvpr_2016%2Fpapers%2FFeichtenhofer_Convolutional_Two-Stream_Network_CVPR_2016_paper.pdf

用于动作识别的隐藏式双流卷积网络(MotionNet)

“Hidden Two-Stream Convolutional Networks for Action Recognition”

Yi Zhu等人提出了一种新颖的CNN架构，该架构隐式捕获相邻帧之间的运动信息。我们将我们的方法命名为隐藏的双流CNN，因为它只将原始视频帧作为输入，并直接预测动作类，而无需显式计算光流。它解决了捕获当前 CNN 架构难以处理的视频帧之间的时间关系的问题。与目前使用传统局部光流估计方法预计算CNN运动信息的常见做法不同，采用无监督预训练方法。MotionNet 具有计算效率和端到端可训练性。它非常灵活，可以直接应用于其他框架中，用于各种视频理解应用。

可改进之处：两个流的联合训练，而不是简单的后期融合。在CNN框架内消除全局相机运动和部分遮挡将有助于光流估计和动作识别。

论文链接：Hidden Two-Stream Convolutional Networks for Action Recognition | SpringerLink

基于时空交互学习的动作识别双流网络

“Spatial-temporal interaction learning based two-stream network for action recognition”

Tianyu Liu等人于2022年提出了一种用于动作识别的时空交互学习双流网络（STILT）。该双流（即空间流和时间流）网络具有时空交互学习模块，该模块使用两个流之间的交替协同注意力机制来学习空间特征和时间特征之间的相关性。时空交互学习模块允许两个流相互引导，进而生成优化的空间注意力特征和时间注意力特征。因此，所提出的网络可以在两个流之间建立交互连接，从而有效地利用有人值守的时空特征来提高识别精度。

论文链接：chrome-extension://icfnljfpacimpcbpammmbclmhenimhfc/pdf-viewer/web/viewer.html?file=https%3A%2F%2Fwww.massey.ac.nz%2F~rwang%2Fpublications%2F22-INF-Liu.pdf