论文复现“Reconstruction Network for Video Captioning“

一、overview

这篇文章提出了一个新的编译码重构网络(RecNet),该网络的编码器-解码器(encoder-decoder)利用视频的前向流(视频到文字描述)和重构器(reconstructor)利用后向流(文字描述到视频),以缩小文字特征的重构误差来训练网络,使得网络更好生成视频的文字描述。
在这里插入图片描述
如上图所示:
(1) Encoder: 提取视频的视觉特征来获取视频的高层语义信息,给定的视频序列被编码为序列表示V={v1,v2 ,…,vm },其中m表示视频帧的总数。
(2) Decoder: 在视频表示的基础上逐字生成字幕, hi是在LSTM中计算ith 的hidden状态,ci是使用时间注意机制计算的ith文本向量。
(3) Reconstructor: 从解码器的hidden状态序列再现视频,即以解码器的hidden状态H={h1,h2,…,hn}作为输入,再现由编码器生成的序列视频帧表示。

二、代码复现

参考博客 https://blog.csdn.net/weixin_40466548/article/details/110918205

  1. 安装环境
    其顺序为离线安装pytorch 1.1.0、torchvision 0.3.0,
    后在线安装cuda和cudnn然后运行run.py,
    再安装模块一直到没有模块报错。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值