Python如何获取大量电影影评，做可视化演示

最新推荐文章于 2024-02-13 23:30:48 发布

「已注销」

最新推荐文章于 2024-02-13 23:30:48 发布

阅读量919

点赞数 3

分类专栏： python实战性项目 python 文章标签： python 开发语言

本文链接：https://blog.csdn.net/yxczsz/article/details/129450049

版权

前言

《保你平安》今天上映诶，有朋友看过吗，咋样啊

这是我最近比较想看的电影了，不过不知道这影评怎么样，上周末的点映应该是有蛮多人看的吧，可以采集采集评论看过的朋友发出来的评论，分析分析

这周刚好双休，正正好就可以去看看

在这里插入图片描述

okok，话不多说，咱就开始吧

开发环境

Python 3.8
Pycharm

代码实现

基本思路

数据来源分析:

明确需求:

采集的网站是什么?
采集的数据是什么?
评论相关数据

抓包分析相关数据来源
通过浏览器自带开发者工具进行抓包分析 <重点>

打开开发者工具: F12 或者鼠标右键点击检查选择network
刷新网页: 让本网页的数据内容重新加载一遍
关键字搜索: 通过关键字<要的数据>, 搜索查询相对应的数据包

利用获取的数据进行可视化分析

【完整源码文末名片获取】

发送请求

# 请求链接
690643772 ### 源码领取
url = f'https://****/subject/35457272/comments?start=20&limit=20&status=P&sort=new_score'
# 伪装模拟
headers = {
   
    # User-Agent 用户代理, 表示浏览器基本身份标识
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送请求
response = requests.get(url=url, headers=headers)
# <Response [200]>
print(response)

解析数据

# 把获取下来html字符串数据 <response.text>, 转成可解析对象 <Selector xpath=None data='<html lang="zh-CN" class="ua-windows ...'>
selector = parsel.Selector(response.text)  # ---> 你现金是美元, 没办法在中国使用 <先去银行兑换RMB>
# 第一次提取, 所有div标签
divs = selector.css('div.comment-item')
# for循环遍历, 把列表里面元素一个一个提取出来
for div in divs:
    name = div.css('.comment-info a::text').get()  # 昵称
    rating = div.css('.rating::attr(title)').get()  # 推荐
    date = div.css