从数据分析角度谈谈谁才是这个夏天的无价之姐——基于弹幕文本分析

写在前面

这个夏天最火的综艺节目之一,《乘风破浪的姐姐》。前段时间刚刚补完所有期公演舞台,作为一个时刻充满好奇心的统计人,今天就来从数据分析的角度谈谈谁才是这个夏天的无价之姐,本篇文章是从公演舞台正片弹幕角度出发的,涉及网络爬虫、分词处理、文本分析、词云图等。首先说明两点:①数据真实,分析客观,但由于出发角度的片面性可能会有失偏颇,②所有分析及论述仅为个人观点,不上升节目组以及任何一位姐姐。

数据说明

来源:《乘风破浪的姐姐 舞台完整版》第2期至第9期的弹幕+成团之夜的弹幕

时间:截止到2020/9/19

说明:

  • 这篇文章的分析仅仅是基于除solo舞台剩余公演舞台纯享版的弹幕以及成团夜的弹幕,不包括真人秀部分,可能会不够全面;
  • 视频弹幕是个累积的过程,博主在这部分发懒了,就用了前几天自己好奇心作祟爬下来的弹幕数据,没有更新到最新时间。但!不要紧,弹幕是个边际递减的过程,前几天的数据也是具有一定代表性的;
  • 这篇文章涉及Python网络爬虫、词云图、文本分析…这些代码略长,没有放到文章里来,我把文章中涉及到的所有模块的代码以及输出结果打包上传到了GitHub,链接郭小撮的GitHub,如有需要,可直接下载使用哈(for free)。
  • 这篇文章的分析仅针对于走到总决赛的14位姐姐,别问为什么不是30位,问就是博主最近太懒了。不过常有好奇心作祟的我说不定之后有哪个契机又想分析一下所有姐姐/所有舞台/单个姐姐成长线…emm…是件很有趣的事情。

爬取公演舞台正片弹幕

之所以选择用舞台纯享版的弹幕数据,有两个原因吧,第一,还是想把分析的重点放在舞台上,而不是真人秀部分,毕竟节目一开始的定位是30+岁姐姐的选秀节目哈哈,但是不可否认的是有很多姐姐不管是在舞台还是真人秀部分都很圈粉,甚至真人秀部分的圈粉能力大大提高了在舞台上的好感度,所以舞台和真人秀这两部分还是没办法完全剥离开;第二,博主真的太懒了,包括真人秀的话有太多期了,爬起来我都替电脑累,一开始爬这些弹幕单纯是好奇心作祟,补完所有期之后非常好奇芒果台到底有没有…(咳咳),所以就想把弹幕爬下来看看在观众眼中谁才是热度之王,虽说也比较片面,但也有一定的代表性。(果然懒才是最大的借口)。但是爬下来之后我的好奇心又来了,所以便有了这篇文章,基于弹幕简单地分析一下姐姐们的热度。

先对这几期的弹幕数做了个简单汇总。一开始节目的弹幕热度是比较高的,在中间第5、6期经历了一个低谷,也就是决赛之前的最后一次淘汰赛,之后的复活换位赛弹幕热度又一次到达了节目刚开始的高度,果然大家都是看热闹不嫌事大的主,对这种复活battle更有兴趣,当然这其中也有很多其它因素,比如节目的时长、观众的疲劳期、粉丝效应(第4期舞台淘汰了唱跳俱佳的孟佳,一度全网意难平,甚至质疑节目组,所以罢看也是有的)等等。弹幕热度最高是在成团之夜,这在意料之中,毕竟节目时间长哈哈哈,还有就是不管之前追没追的吃瓜群众们都想来瞅一瞅到底是哪几个姐姐成团了。

第几期 更新日期 副标题 弹幕数
舞台第2期 2020/6/27 姐姐初公演纯享版 11641
舞台第3期 2020/7/11
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值