用Python分析张同学dy评论数据

本文使用Python爬虫抓取并分析张同学抖音视频的评论数据,通过EDA和LDA算法深入理解用户兴趣。数据显示,11.17号视频评论集中在发布后两天,大部分评论长度在20字内。LDA分析得出8个主题,其中喂狗主题占比最高,体现了观众对视频中反常态镜头的关注。
摘要由CSDN通过智能技术生成

首先

相信有很多小伙伴都喜欢玩抖音吧,最近抖音张同学突然火了,两个月涨粉一千多万。看了他的视频,满满的生活气息,让人有一种家的感觉。这就让我很感兴趣了,必须得用Python对他分析一下。
在这里插入图片描述

今天这篇文章,我抓取了张同学的视频的评论数据,想从文本分析的角度,挖掘一下大家对张同学感兴趣的点。

张同学 10.4号开始发视频,视频的点赞量一直很高,11.17 号的视频达到了顶峰,收获 250w 个赞,之后关注量也开启了暴涨。

在这里插入图片描述

所以挖掘 11.17 号视频的评论,更有助于我们达成目的。

1. 抓取数据

抖音出了 web 版,抓取数据方便了很多。
在这里插入图片描述

滑到网页评论区,在浏览器网络请求里过滤包含comment的请求,不断刷新评论就可以看到评论的接口。

有了接口,就可以写 Python 程序模拟请求,获取评论数据。

请求数据要设置一定间隔,避免过大请求,影响别人服务

抓取评论数据有两点需要注意:

•有时候接口可能返回空数据,因此需要多试几次,一般过了人工滑动验证后的接口基本可用

•不同页面之间的数据可能会重复,所以需要跳页请求

在这里插入图片描述

2. EDA

11.17 号的视频有 12w 条评论,我只抓取了 1w 多条。

在这里插入图片描述

text列是评论。

先对数据做一些探索性的分析,之前介绍过几个EDA工具,可以自动产出基础的数据统计和图表。

这次我用的是ProfileReport

#####Python学习交流Q群:906715085#####
#eda
profile = ProfileReport(df, title='张同学抖音评论数据', explorative=True)
profile

在这里插入图片描述

评论时间分布

从评论的时间分布来看,由于发布的视频的时间是17号,所有17、18号评论发布量比较多。不过再往后甚至到了 12.9 号,仍然有不少新评论产生,说明视频热度确实很高。
在这里插入图片描述

评论的长度分布

大多数评论的字数在 20 以内,基本不超过 40 个字,说明都是短文本。
在这里插入图片描述

评论者身份

参与评论的人里, 99.8% 是没有认证身份的,说明评论用户里基本都是普通用户。

在这里插入图片描述

3. LDA

上面的统计数据还是太粗略了。

但我们要想知道大家的感兴趣点在哪,又不可能细到把 1.2w 条评论全部看完。

所以需要对这些评论先做一次归类,相当于把数据升维,抽象。因为只有将数据升维,了解每个维度的含义和占比,才能帮助我们从全局角度掌握数据。

这里我用LDA算法对文本聚类,聚合在一起的评论可以看做属于同一个主题。

LDA算法的核心思想有两点:

•具有一定相似性的文本会聚合在一起,形成一个主题。每个主题包含生成该主题需要的词,以及这些词的概率分布。以此可以人为推断出主题的类别。

•每篇文章会它有在所有主题下的概率分布,以此可以推断出文章属于哪个主题。

比如,经过LDA算法聚类后,某个主题中,战争、军费这类词出现概率很高,那么我们可以将该主题归类为军事。如果有一篇文章属于军事主题的概率很高,我们就可以将该文章分为军事一类。

简单介绍完LDA的理论,下面我们来实战一下。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值