Python抓取十万弹幕数据需多久？三分钟搞定并实现词云！

最新推荐文章于 2023-04-13 10:22:13 发布

爬遍天下无敌手

最新推荐文章于 2023-04-13 10:22:13 发布

阅读量481

点赞数

分类专栏：程序员文章标签： python 爬虫数据分析可视化源码

本文链接：https://blog.csdn.net/weixin_43881394/article/details/119883648

版权

本文通过Python爬虫收集了芒果TV《披荆斩棘的哥哥》第一期的10万条弹幕数据，分析了弹幕整体词云、点赞最多的弹幕、弹幕狂魔以及观众对哥哥们的评价。重点展示了赵文卓、大湾区哥哥们、李承铉等受到的热烈反响，并提供了弹幕数据采集的源码。

摘要由CSDN通过智能技术生成

不知道周四的芒果台《披荆斩棘的哥哥》第1期一经播出，你们看了没。简直炸裂来袭，情怀牌、不油腻、有质感，让它上线就获得了大量关注！

将古惑仔、摇滚乐手、rapper、舞者、歌手、功夫演员等等放在同一档综艺节目里，又会产生什么样的化学反应呢？

今天，我们就看看第1期里10万弹幕大军们怎么说吧！

1. 数据预览

本次采集的是芒果TV第1期上中下三集一共97,331条弹幕，具体采集过程见文末代码（比较简单哈）。

import pandas as pd

df = pd.read_excel('披荆斩棘的哥哥.xlsx')
# 数据字段信息
df.info()

<class 'pandas.core.frame.DataFrame'> Int64Index: 97331 entries, 4 to 33794 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 ids 97331 non-null string 1 uid 97331 non-null Int64 2 content 97331 non-null string 3 time 97331 non-null Int64 4 v2_up_count 97331 non-null Int64 5 时间 97331 non-null Int64 6 上中下 97331 non-null string dtypes: Int64(4), string(3) memory usage: 6.3 MB

在数据中，各字段含义如下：

ids：弹幕id

uid：用户id

content：弹幕内容

time：弹幕发送时间（相对于本集开始后的毫秒）

v2_up_count：弹幕点赞数

时间：弹幕发送时间（分钟）

上中下：归属第1期的上中下三部分之一

# 数据预览
df.sort_values(by=['上中下','time'], inplace=True) # 按照上中下集和time排序
df.head()
复制代码

数据预览

(
    df.groupby('上中下').agg(弹幕数=('ids', 'count'),
                        时长=('时间', &

最低0.47元/天解锁文章

爬遍天下无敌手

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python抓取十万弹幕数据需多久？三分钟搞定并实现词云！

不知道周四的芒果台《披荆斩棘的哥哥》第1期一经播出，你们看了没。简直炸裂来袭，情怀牌、不油腻、有质感，让它上线就获得了大量关注！将古惑仔、摇滚乐手、rapper、舞者、歌手、功夫演员等等放在同一档综艺节目里，又会产生什么样的化学反应呢？今天，我们就看看第1期里10万弹幕大军们怎么说吧！1. 数据预览本次采集的是芒果TV第1期上中下三集一共97,331条弹幕，具体采集过程见文末代码（比较简单哈）。import pandas as pddf = pd.read_excel('披荆斩棘的
复制链接

扫一扫

专栏目录