双流神经网络第一篇
双流网络最早由Karen Simonyan等人于2014年提出,改论文是引入深度学习后,双流法处理行为识别的开山之作。该文解决了如何通过卷积神经网络同时获取时间(光流)、位置信息(普通食品)。
论文中用于视频分类的双流结构
引入了光流(Optical flow),用于表示时间信息。对于RGB/光流都是通过2D卷积提取特征。最后融合也比较直接。
论文链接:chrome-extension://icfnljfpacimpcbpammmbclmhenimhfc/pdf-viewer/web/viewer.html?file=https%3A%2F%2Fproceedings.neurips.cc%2Fpaper_files%2Fpaper%2F2014%2Ffile%2F00ec53c4682d36f5c4359f4ae7bd7ba1-Paper.pdf
双流网络+新特征融合方式
“Convolutional Two-Stream Network Fusion for Video Action Recognition”
2016年Christoph Feichtenhofer等人认为之前的双流模型,特征融合过于简单,希望找到更好的融合方式。通过各种实验,找到了合适的方式。几处可以特征融合的位置。几种特征融合的方式。论文使用的特征融合模型结构,主要就是利用了3D卷积和3D池化进行特征融合。仍存在问题:模型过于简单。
论文链接:chrome-extension://icfnljfpacimpcbpammmbclmhenimhfc/pdf-viewer/web/viewer.html?file=https%3A%2F%2Fopenaccess.thecvf.com%2Fcontent_cvpr_2016%2Fpapers%2FFeichtenhofer_Convolutional_Two-Stream_Network_CVPR_2016_paper.pdf
用于动作识别的隐藏式双流卷积网络(MotionNet)
“Hidden Two-Stream Convolutional Networks for Action Recognition”
Yi Zhu等人提出了一种新颖的CNN架构,该架构隐式捕获相邻帧之间的运动信息。我们将我们的方法命名为隐藏的双流CNN,因为它只将原始视频帧作为输入,并直接预测动作类,而无需显式计算光流。它解决了捕获当前 CNN 架构难以处理的视频帧之间的时间关系的问题。与目前使用传统局部光流估计方法预计算CNN运动信息的常见做法不同,采用无监督预训练方法。MotionNet 具有计算效率和端到端可训练性。它非常灵活,可以直接应用于其他框架中,用于各种视频理解应用。
可改进之处:两个流的联合训练,而不是简单的后期融合。在CNN框架内消除全局相机运动和部分遮挡将有助于光流估计和动作识别。
论文链接:Hidden Two-Stream Convolutional Networks for Action Recognition | SpringerLink
基于时空交互学习的动作识别双流网络
“Spatial-temporal interaction learning based two-stream network for action recognition”
Tianyu Liu等人于2022年提出了一种用于动作识别的时空交互学习双流网络(STILT)。该双流(即空间流和时间流)网络具有时空交互学习模块,该模块使用两个流之间的交替协同注意力机制来学习空间特征和时间特征之间的相关性。时空交互学习模块允许两个流相互引导,进而生成优化的空间注意力特征和时间注意力特征。因此,所提出的网络可以在两个流之间建立交互连接,从而有效地利用有人值守的时空特征来提高识别精度。
论文链接:chrome-extension://icfnljfpacimpcbpammmbclmhenimhfc/pdf-viewer/web/viewer.html?file=https%3A%2F%2Fwww.massey.ac.nz%2F~rwang%2Fpublications%2F22-INF-Liu.pdf
双流网络优缺点
双流卷积神经网络是一种将空间信息和时间信息分开处理的神经网络模型,其优缺点如下:
优点:
1.对于视频和语音这种具有时序信息的数据,双流CNN能够更好地捕捉到时序特征,提高模型性能。
2. 在训练CNN时,传统的方法是采用随机初始化的方法,需要大量的样本数据来训练,而使用双流CNN可以利用之前训练过的图像识别CNN的参数,减少了训练时间和数据量。
3. 双流CNN可以通过对不同卷积层进行特征融合,从而提高模型的鲁棒性和准确性。
缺点:
1. 相较于传统的单流CNN,双流CNN需要更为复杂的网络结构和更大的计算资源,这会增加模型的复杂度和训练成本。
2. 双流CNN分别处理了空间信息和时间信息,而在某些应用场景下,这两种信息并不是独立的,因此可能会出现信息重复或遗漏的问题,需要对模型进行进一步的优化。
3. 双流CNN在处理不同类型的数据时需要设计不同的网络结构,例如针对语音的双流CNN与针对视频的双流CNN具有不同的网络结构,因此需要更为灵活的设计方法。