Python抓取十万弹幕数据需多久?三分钟搞定并实现词云!

不知道周四的芒果台《披荆斩棘的哥哥》第1期一经播出,你们看了没。简直炸裂来袭,情怀牌、不油腻、有质感,让它上线就获得了大量关注!

将古惑仔、摇滚乐手、rapper、舞者、歌手、功夫演员等等放在同一档综艺节目里,又会产生什么样的化学反应呢?

今天,我们就看看第1期里10万弹幕大军们怎么说吧!

1. 数据预览

本次采集的是芒果TV第1期上中下三集一共97,331条弹幕,具体采集过程见文末代码(比较简单哈)。

import pandas as pd

df = pd.read_excel('披荆斩棘的哥哥.xlsx')
# 数据字段信息
df.info()

 

<class 'pandas.core.frame.DataFrame'> Int64Index: 97331 entries, 4 to 33794 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ids 97331 non-null string 1 uid 97331 non-null Int64 2 content 97331 non-null string 3 time 97331 non-null Int64 4 v2_up_count 97331 non-null Int64 5 时间 97331 non-null Int64 6 上中下 97331 non-null string dtypes: Int64(4), string(3) memory usage: 6.3 MB

在数据中,各字段含义如下:

ids: 弹幕id

uid: 用户id

content:弹幕内容

time:弹幕发送时间(相对于本集开始后的毫秒)

v2_up_count:弹幕点赞数

时间:弹幕发送时间(分钟)

上中下:归属第1期的上中下三部分之一

# 数据预览
df.sort_values(by=['上中下','time'], inplace=True) # 按照上中下集和time排序
df.head()
复制代码

数据预览

(
    df.groupby('上中下').agg(弹幕数=('ids', 'count'),
                        时长=('时间', 'max')
                        ).reset_index().style
    .bar(subse
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值