已更新!!!
之前有小伙伴在评论里反应代码有点问题,今天看了下,报错原因是百度指数现在要求必须要登录才能查询,后续有空会更新下代码,把模拟登录加上
需求背景
因为百度指数中需求图谱的关键词只以一周为单位显示,所以为了将更多天数的关键词汇总,写了以下代码帮助大家~
ps:我是工管的,Python是我业余学的,所以代码写的比较丑陋请见谅…
0、获取cookies
1.打开百度指数:百度指数
2.打开检查,如图:
3.复制cookies的内容 填入代码中 headers
百度指数的params如下所示:
一、使用datetime计算查询的日期
百度指数的params如下所示:
'wordlist[]': '原神',#这里修改关键词
'datelist': str(next_time.strftime('%Y%m%d'))#开始日期
为了计算datelist,所以需要用到datetime库。具体实现代码如下所示:
import datetime
start_time=datetime.date(2020,9,6)#开始爬取日期的上一周
for i in range (10):
next_time=start_time+datetime.timedelta(7)#+一周
print(next_time.strftime('%Y%m%d'))
start_time = next_time
二、爬取需求图谱关键词
它的数据是在XHR里的json格式,所以需要用到request库转换下,具体代码如下所示:
url='http://index.baidu.com/api/WordGraph/multi'
params = {
'wordlist[]': '原神',
'datelist': str(next_time.strftime