结合多尺度注意力机制和双向门控循环网络的视频摘要模型

最新推荐文章于 2025-02-24 10:56:27 发布

罗伯特之技术屋

最新推荐文章于 2025-02-24 10:56:27 发布

阅读量2k

点赞数

分类专栏：智能科学与技术专栏文章标签：网络音视频

本文链接：https://blog.csdn.net/weixin_57147647/article/details/138379842

版权

智能科学与技术专栏专栏收录该内容

87 篇文章 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文提出了一种结合多尺度注意力机制和双向门控循环网络（BiGRU）的视频摘要模型LG-RU。该模型解决了全局注意力机制的方差问题和片段边界缺乏长程依赖的问题，通过局部和全局注意力模块获取关键特征，并利用BiGRU捕获时序信息，提高了视频摘要的准确性和连贯性。在TvSum和SumMe数据集上进行的对比试验表明，LG-RU模型在F-score上取得了更好的结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要: 针对视频摘要任务中全局注意力在长距离视频序列上注意力值分布的方差较大，生成关键帧的重要性分数偏差较大，且时间序列节点边界值缺乏长程依赖导致的片段语义连贯性较差等问题，通过改进注意力模块，采用分段局部自注意力和全局自注意力机制相结合来获取局部和全局视频序列关键特征，降低注意力值的方差。同时通过并行地引入双向门控循环网络（bidirectional recurrent neural network, BiGRU），二者的输出分别输入到改进的分类回归模块后再将结果进行加性融合，最后利用非极大值抑制（non-maximum suppression, NMS）和核时序分割方法（kernel temporal segmentation, KTS）筛选片段并分割为高质量代表性镜头，通过背包组合优化算法生成最终摘要，从而提出一种结合多尺度注意力机制和双向门控循环网络的视频摘要模型(local and global attentions combine with the BiGRU, LG-RU)。该模型在TvSum和SumMe的标准和增强数据集上进行了对比试验，结果表明该模型取得了更高的F-score，证实了该视频摘要模型保持高准确率的同时可鲁棒地对视频完成摘要。