前言
利用Python实现获取动态图表,废话不多说~
让我们愉快地开始吧~
开发工具
Python版本: 3.6.4
相关模块:
re模块;
requests模块;
urllib模块;
pandas模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
看一下B站2019年「数据可视化」版块的情况,第一个视频超2百万的播放量,4万+的弹幕
百度指数
获取百度指数,首先需要登陆你的百度账号
以关键词「王者荣耀」为例,时间自定义为2020-10-01~2020-10-10
通过开发者工具,我们就能看到曲线图的数据接口
然而一看请求得到的结果,发现并没有数据,原因是这里使用了JS加密
找到解决方法,成功实现爬取,代码实现
import time
import json
import execjs
import datetime
import requests
from urllib.parse import urlencode
def get_data(keywords, startDate, endDate, area):
"""
获取加密的参数数据
"""
# data_url = "http://index.baidu.com/api/SearchApi/index?area=0&word=[[%7B%22name%22:%22%E7%8E%8B%E8%80%85%E8%8D%A3%E8%80%80%22,%22wordType%22:1%7D]]&startDate=2020-10-01&endDate=2020-10-10"
params = {
'word': json.dumps([[{
'name': keyword, 'wordType': 1}] for keyword in keywords]),
'startDate': startDate,
'endDate': endDate,
'area': area
}
data_url = 'http://index.baidu.com/api/SearchApi/index?' + urlencode(params)
# print(data_url)
headers = {
# 复制登录后的cookie
"Cookie": '你的cookie',
"Referer": "http://index.baidu.com/v2/main/index.html",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"
}
# 获取data和uniqid
res = requests.get(url=data_url, headers=headers).json()
data = res["data"]["userIndexes"][0]["all"]["data"]
uniqid = res["data"]["uniqid"]
# 获取js函数中的参数t = "ev-fxk9T8V1lwAL6,51348+.9270-%"
t_url = "http://index.baidu.com/Interface/ptbk?uniqid={}".format(uniqid)
rep = requests.get(url=t_url, headers=headers).json()
t = rep["data"]
return {
"data": data, "t": t}
def get_search_index(word, startDate, endDate, area):
"""
获取最终数据
"""
word = word
startDate = startDate
endDate = endDate
# 调用get_data获取data和uniqid
res = get_data(word, startDate, endDate, area)
e = res["data"]
t = res["t"]
# 读取js文件
with open('parsing_data_function.js'