说到爬虫,第一时间可能就会想到网易云音乐的评论。网易云音乐评论里藏了许多宝藏,那么让我们一起学习如何用 python 挖宝藏吧!
既然是宝藏,肯定是用要用钥匙加密的。打开 Chrome 分析 Headers 如下。
这参数看起来挺复杂的,我们就不用 requests 去调用这个链接了。
这次使用的是 selenium ! 一个浏览器自动化测试框架!通过它可以模拟手动操作浏览器!
为此我们要准备好驱动器 chromedriver 和 chrome 浏览器。
chromedriver 可以在淘宝镜像中下载,选择与 chrome 浏览器对应的版本进行下载。下载地址如下。http://npm.taobao.org/mirrors/chromedriver
整个项目使用了 python3 与一些第三方库。参考如下。
from selenium import webdriver
import jieba
from wordcloud import WordCloud
from PIL import Image
import numpy as np
然后配置 confi