利用Python爬取百度指数中需求图谱的关键词

不想努力的胖子-

已于 2022-06-22 16:05:30 修改

阅读量4.2k

点赞数 5

文章标签： python 爬虫

于 2021-03-10 22:01:58 首次发布

本文链接：https://blog.csdn.net/weixin_46238789/article/details/114647322

版权

本文介绍如何利用Python爬取百度指数的需求图谱关键词。通过计算日期、设置cookies，利用requests库抓取JSON数据，最后将关键词保存到CSV文件中按月区分。

摘要由CSDN通过智能技术生成

文章目录

需求背景
0、获取cookies
一、使用datetime计算查询的日期
二、爬取需求图谱关键词
三、扔进csv里
总结

已更新！！！

之前有小伙伴在评论里反应代码有点问题，今天看了下，报错原因是百度指数现在要求必须要登录才能查询，后续有空会更新下代码，把模拟登录加上

需求背景

因为百度指数中需求图谱的关键词只以一周为单位显示，所以为了将更多天数的关键词汇总，写了以下代码帮助大家~

ps：我是工管的，Python是我业余学的，所以代码写的比较丑陋请见谅…

0、获取cookies

1.打开百度指数：百度指数
2.打开检查，如图：
在这里插入图片描述
3.复制cookies的内容填入代码中 headers

百度指数的params如下所示：

一、使用datetime计算查询的日期

百度指数的params如下所示：

'wordlist[]': '原神',#这里修改关键词
'datelist': str(next_time.strftime('%Y%m%d'))#开始日期

为了计算datelist，所以需要用到datetime库。具体实现代码如下所示：

import datetime
start_time=datetime.date(2020,9,6)#开始爬取日期的上一周
for i in range (10):
    next_time=start_time+datetime.timedelta(7)#+一周
    print(next_time.strftime('%Y%m%d'))
    start_time = next_time

二、爬取需求图谱关键词

它的数据是在XHR里的json格式，所以需要用到request库转换下，具体代码如下所示：

url='http://index.baidu.com/api/WordGraph/multi'
params = {
   
    'wordlist[]': '原神',
    'datelist': str(next_time.strftime

最低0.47元/天解锁文章

不想努力的胖子-

关注

5
点赞
踩
23

收藏

觉得还不错? 一键收藏
31
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫