用Python分析张同学dy评论数据

最新推荐文章于 2024-08-18 01:16:30 发布

蚂蚁爱Python

最新推荐文章于 2024-08-18 01:16:30 发布

阅读量1k

点赞数

分类专栏： Python 爬虫 Python实战项目文章标签： python 爬虫数据分析

本文链接：https://blog.csdn.net/xff123456_/article/details/123819523

版权

本文使用Python爬虫抓取并分析张同学抖音视频的评论数据，通过EDA和LDA算法深入理解用户兴趣。数据显示，11.17号视频评论集中在发布后两天，大部分评论长度在20字内。LDA分析得出8个主题，其中喂狗主题占比最高，体现了观众对视频中反常态镜头的关注。

摘要由CSDN通过智能技术生成

首先

相信有很多小伙伴都喜欢玩抖音吧，最近抖音张同学突然火了，两个月涨粉一千多万。看了他的视频，满满的生活气息，让人有一种家的感觉。这就让我很感兴趣了，必须得用Python对他分析一下。
在这里插入图片描述

今天这篇文章，我抓取了张同学的视频的评论数据，想从文本分析的角度，挖掘一下大家对张同学感兴趣的点。

张同学 10.4号开始发视频，视频的点赞量一直很高，11.17 号的视频达到了顶峰，收获 250w 个赞，之后关注量也开启了暴涨。

在这里插入图片描述

所以挖掘 11.17 号视频的评论，更有助于我们达成目的。

1. 抓取数据

抖音出了 web 版，抓取数据方便了很多。
在这里插入图片描述

滑到网页评论区，在浏览器网络请求里过滤包含comment的请求，不断刷新评论就可以看到评论的接口。

有了接口，就可以写 Python 程序模拟请求，获取评论数据。

请求数据要设置一定间隔，避免过大请求，影响别人服务

抓取评论数据有两点需要注意：

•有时候接口可能返回空数据，因此需要多试几次，一般过了人工滑动验证后的接口基本可用

•不同页面之间的数据可能会重复，所以需要跳页请求

在这里插入图片描述

2. EDA

11.17 号的视频有 12w 条评论，我只抓取了 1w 多条。

在这里插入图片描述

text列是评论。

先对数据做一些探索性的分析，之前介绍过几个EDA工具，可以自动产出基础的数据统计和图表。

这次我用的是ProfileReport

#####Python学习交流Q群：906715085#####
#eda
profile = ProfileReport(df, title='张同学抖音评论数据', explorative=True)
profile

在这里插入图片描述

评论时间分布

从评论的时间分布来看，由于发布的视频的时间是17号，所有17、18号评论发布量比较多。不过再往后甚至到了 12.9 号，仍然有不少新评论产生，说明视频热度确实很高。
在这里插入图片描述

评论的长度分布

大多数评论的字数在 20 以内，基本不超过 40 个字，说明都是短文本。
在这里插入图片描述

评论者身份

参与评论的人里， 99.8% 是没有认证身份的，说明评论用户里基本都是普通用户。

在这里插入图片描述

3. LDA

上面的统计数据还是太粗略了。

但我们要想知道大家的感兴趣点在哪，又不可能细到把 1.2w 条评论全部看完。

所以需要对这些评论先做一次归类，相当于把数据升维，抽象。因为只有将数据升维，了解每个维度的含义和占比，才能帮助我们从全局角度掌握数据。

这里我用LDA算法对文本聚类，聚合在一起的评论可以看做属于同一个主题。

LDA算法的核心思想有两点：

•具有一定相似性的文本会聚合在一起，形成一个主题。每个主题包含生成该主题需要的词，以及这些词的概率分布。以此可以人为推断出主题的类别。

•每篇文章会它有在所有主题下的概率分布，以此可以推断出文章属于哪个主题。

比如，经过LDA算法聚类后，某个主题中，战争、军费这类词出现概率很高，那么我们可以将该主题归类为军事。如果有一篇文章属于军事主题的概率很高，我们就可以将该文章分为军事一类。

简单介绍完LDA的理论，下面我们来实战一下。

最低0.47元/天解锁文章

蚂蚁爱Python

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录