LGSS算法代码结构分析
1、数据集说明 data
(1)aud_feat 音频特征文件:shot-level 的音频特征,格式为 npy,用于场景分割训练,运行 python audio/extract_feat.py 生成该文件;
(2) place_feat 地点特征文件:shot-level 粒度的地点图像特征,格式为 npy,用于场景分割训练,运行 python place/extract_feat.py 生成该文件;
(3)shot_stats, shot_txt,shot_keyf 等文件:镜头切分结果相关文件,shot_keyf 保存了每个镜头里的3个img格式的帧图像,shot_stats 保存了每一帧的时间码、hsv、lvu信息,文件格式为csv,shot_txt 保存了每个镜头的开始/结束的时间/帧,格式为txt;
(4)scene_video:最终的场景切分结果,为多个MP4文件;
(5)video:原视频所在文件夹
2、数据预处理 pre
数据预处理模块主要分为音频特征提取(audio)、地点特征提取(place)以及镜头切割(ShotDetect)