飞桨Paddlepaddle复现顶会论文心得

最新推荐文章于 2023-08-03 11:07:24 发布

贤爸爸

最新推荐文章于 2023-08-03 11:07:24 发布

阅读量436

点赞数

分类专栏：动作识别 Paddle

本文链接：https://blog.csdn.net/zxx650/article/details/108187296

版权

本文分享了作者使用Paddlepaddle框架复现顶会论文TPN的心得体会，探讨了数据读取、半模块化设计以及在AIStudio上进行多GPU训练的难点。在复现过程中，作者遇到TPN源码的模块化设计和random shift模块理解问题，并尝试简化实现。同时，对比了Paddlepaddle与Pytorch在多GPU训练上的差异，指出Paddlepaddle的多GPU训练更为复杂。

摘要由CSDN通过智能技术生成

Paddle相对于Tensorflow和Pytorch而言是一个较新的，还需要成长和积累用户的深度学习框架，需要我们这些国人多多支持，一起发展它。这次百度给予了一个了解Paddle的机会，提供了大量AIStudio的算力来支持我们复现顶会论文的工作。因为我想着后续研究视频识别，因此选择了TPN进行复现。

任务：TPN

TPN是视频识别方向的任务，在数据训练方面比较苛刻，官方要求Kinetics400数据集的复现精度能达到77%，但是由于数据集比较大，我在复现时只能以UCF101为复现DEMO，慢慢复现个中的原理。但TPN的源码比较模块化，使用了mmaction来进行复现，因此比较难。我只能依靠原有的视频分类作业进行复现。总的而言是进行了以下的步骤：

1. 实现数据的读取

原有作业是将单个视频数据分成n份，然后每一份都取一张图像作为该部分的代表，以此进行深度网络的输入。但是TPN是使用NxS的形式，N指代的是取N张图，S指代的是间隔，这意味着网络的输入是取一个NxS的连续区间，然后拿出间隔S的N张图像作为网络输入，TPN论文有试过8x8、16x4、32x2，发现32x2的结果是最好的，因此我也根据这个来实现了一个简约版的。但是它代码里面有一个random shift的模块，没读懂它的原文，还在慢慢想着怎么做。

2. 实现半模块化设计

TPN的代码是构建了模块化的方式进行调试网络结构实现视频识别，其中将网络结构分为了多个模块：骨架模块backbone，脖子模块neck，时间空间融合模块Spatial_Temporal_Method，一致性组合模块segmental_consensuses和分类模块

最低0.47元/天解锁文章

贤爸爸

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
飞桨Paddlepaddle复现顶会论文心得

Paddle相对于Tensorflow和Pytorch而言是一个较新的，还需要成长和积累用户的深度学习框架，需要我们这些国人多多支持，一起发展它。这次百度给予了一个了解Paddle的机会，提供了大量AIStudio的算力来支持我们复现顶会论文的工作。因为我想着后续研究视频识别，因此选择了TPN进行复现。任务：TPN TPN是视频识别方向的任务，在数据训练方面比较苛刻，官方要求Kinetics400数据集的复现精度能达到77%，但是由于数据集比较大，我在复现时只能以UCF1...
复制链接

扫一扫

专栏目录