前言
最近微博上的爆的热搜是不少啊,咳咳,23年1月31号记汪峰旷工一次
之前有营销号预言23年的娃瓜 已经爆出来一个了 好像是说还有两个来着 也不知道是谁的娃~
现在已经没有什么可以震惊到我的了 胡歌都有娃了 彭于晏抓紧吧
有点点的无聊 就来用Python采集一些热门评论 做个词云图 来看看吧
开发环境
- python 3.8: 解释器
- pycharm: 代码编辑器
- requests: 发送请求
- parsel: 解析数据 jieba pandas stylecloud
爬虫实现流程
一. 思路分析
- 找到数据来源
- network 记录网页数据 请求
二. 实现代码
- 发送请求
- 获取数据
- 解析数据
- 保存数据
主要代码
准备模块
import requests # 需要额外安装
import csv
# 半成品 (最基本的架构)
# 分布式
f = open('评论.csv', mode='a', encoding='utf-8-sig', newline='