网站热门视频的特性分析

本文基于SQL和Python对某视频平台的热门视频进行分析研究,数据包含了十个国家在两年内的每日热门视频记录,包含视频id、日期、标题、观看量、点赞量、评论数等等共16个字段。从这些数据中分析挖掘,能够让我们更好地了解热门视频具备哪些共同特性,对比不同国家的热点差异,这些数据还可能揭示出一些很有启发意义的规律。

数据集的csv文件用Navicat导入Mysql,并从JSON文件中用python字典提取出类别id和类别的对应关系。数据包含以下字段:视频id、日期、标题、频道、类目、分布时间、标签、观看量、赞、踩、评论数、缩图链接、禁用评论、禁用率、失效视频、描述。下图给出了各国热门视频的总数,我们可以看到各国的数据量基本在3W-5W间,日本的热门视频总量较少,为2W+。对数据清洗的过程中,剔除了以日语、韩语等语言为主的字段,保留了英语和数字类型的字段信息。在这里插入图片描述
各国不同类别的热门视频数量如下图所示,US, GB, DE, CA, FR, RU, MX, KR, JP, IN分别代表美、英、德、加、法、俄、墨西哥、韩、日、印。娱乐类视频在多数国家都是最受欢迎的。当然也有例外,例如英国最热门的类目是音乐,俄国最热门的类目则是人物&博客类。
在这里插入图片描述

选取了几个国家的观看次数分布情况做箱线图如下。从观看次数的分布看,加、法、德绝大多数热门视频的观看次数都在100w以下,英国多数视频观看量在400w以下。 英国和加拿大的箱线图较相似,箱线边缘左右均分布了许多离群值,德国、法国比较相近,异常值主要分布在箱线边缘右侧。观看量最高的那些视频播放量远远高出一般水平。
在这里插入图片描述
查询播放量占前5%的视频得知,其平均播放量达到400w-7kw之间,为橘色区域而最热的视频播放量超过了1亿甚至超过4亿,见蓝色区域。与之形成鲜明对比的是,法、德、加75%的视频播放量不超过100w,英75%的视频播放量不超过370w,75%视频中最高播放量用绿色区域表示,在图表少到几乎不可见的程度。

在这里插入图片描述

下图给出了各个国家不同类别视频的观看量分布情况。类别缩写含义如下:A&V-汽车、E-娱乐、Edu-教育、F&A-影视动漫、H&S-生活时尚、M-音乐、N&P-新闻时政、NP&A-非盈利公益、P&A-宠物动物、P&B-人物博客、S&T-科技、T&E-旅行纪实。不同国家存在明显的区别,也有一些共性,例如音乐类、影视类普遍受欢迎程度最高。
在这里插入图片描述
从点赞分布可以发现,电影类的点赞分布波动最小,这是因为热门里电影类视频数量很少,而且有一半国家(美国、日本、英国、韩国、墨西哥)电影类视频没有排进热门。热门视频中电影类较少的原因可能是一方面观众没有将该视频网站作为主要的观影渠道,另一方面与分类方式有关,比如Comedy、F&A和Movies在分类上有重叠之处,更多的电影视频可能在分类上并入了Comedy、F&A。
音乐类(M)点赞数普遍居高,音乐类视频在不同地区都是非常受欢迎的。但其点赞数的波动和长尾程度也很高,存在较多点赞量低的“异常值”。
在这里插入图片描述
下图选取CA数据展示了变量间的相关关系,其中相关程度用-1到1间的数值表示。我们看到观看量和点赞量高度正相关,对应值为0.83;喜欢与评论数之间相关性为0.84,同样很高,从图中还可以发现,不喜欢与评论数之间相关度为0.64,也处于很高的水平。
在这里插入图片描述

接下来看看热门视频与时间的关系,下图告诉我们周五的热门视频数量最多,周六最少。看来,周五发布视频很可能更容易成为热门,当然,也有可能是因为周五发布的视频总量最多。因为我们没有视频总量的数据,暂时无法判断。

在这里插入图片描述
一天中热门视频数量随时间的关系如图,16-17点为高峰时段,热门数量最多,而对于不同的国家而言,低峰期略有不同,GB的低峰期字6-7点,FR低峰期在2-3点,CA则在8-10点,DE在0点左右。但总体来看,不同国家0-10点的热门视频数量都在较低水平。
在这里插入图片描述

最后,简单总结一下本文的一些结论:
从热门视频总数看,娱乐类视频在多数国家都是最受欢迎的。就观看量而言,各国普遍来说音乐类、影视类有最高的观看量。
多个国家最热的视频播放量超过了1亿甚至超过4亿,而75%的视频播放量不超过370w。
喜欢与不喜欢之间,观看与不喜欢之间,观看与评论间均存在很高的正相关度。
从时间角度划分发现,周五的热门视频数量最多,周六最少。16-17点为热门视频数量的高峰时段,热门数量最多,0-10点的热门视频数量都在较低水平。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值