为督促自己更好的理解论文,而不是仅看看不思考,今后【论文】系列将会至少每周总结一篇这周看过的论文,总结需分为两部分,一部分忠于原文详细总结原理方法,另一部分阐述自己的理解,以便达到整理研究思路,提高论文写作水平的目的
本周总结思考的论文为:Object-based analysis and interpretation of human motion in sports video sequences by dynamic Bayesian networks.1
前言
虽然文献的研究对象为实例级别(object-based),但由于文献发表时间早于Alexnet的出现,所以动作实例特征的提取不涉及高级语义,仅为纹理颜色形状等低级特征,故**视频物体(VOs,video objects)**的提取前置步骤不列为总结重点,重点放在如何使用数学方法建模时序上。
本文要解决的两个关键问题为:
-
1. what features we shall count on
-
2. what mapping we shall use
针对这两个关键问题,本文涉及的关键步骤有:
- video objects segmentation
目的:根据镜头检测的结果分割VOs
算法:change detection or object tracking(两种都用了) - video objects abstraction
目的:鉴别关键帧以减少数据冗余,提取VOs特征
算法:cluster analysis orsequential selection - semantic feature modeling
目的:建模语义对象的时空特性
算法:动态贝叶斯网络(DBN, Dynamic Bayesian Network)
整体架构流程图如下:
VOs提取结果
Video modeing and inter pretation
为了获取视频片段的语义,需要用DBN将低级特征映射为高级语义。
贝叶斯公式
其中:
- p ( w ) p(w) p(w):为先验概率,表示每种类别分布的概率;
- p ( x ∣ w ) p(x|w) p(