python爬虫 爬取爱企查公司信息

目录

一、思路

1.1输入网址,查看源代码

1.2 F12抓包,寻找数据包。

1.3查看数据包的URL和是否有传递的参数

​ 1.4编写代码


一、思路

1.1输入网址,查看源代码

 可以看到源代码中没有我们想要的数据,就需要考虑使用抓包工具,找到我们需要的数据包

1.2 F12抓包,寻找数据包。

 

        全部包都看了一遍,发现没有我们需要的包,那么数据跑哪去了呢?我尝试着,先清除数据包,然后点击下一页,果然,存在数据的包出现了,所以如果你也遇到过这种问题,不要急。

        类似这种首页无法抓取的网页,或者看不到包的网页,不妨试试看文中的“以退为进,投机取巧”方法,说不定有妙用 。

1.3查看数据包的URL和是否有传递的参数

 1.4编写代码

        OK,思路已经理顺,找到了数据包的url和传递的参数,下面就是编写代码,值得注意的是,在编写代码的时候,需要为请求头加上防盗链。

# -*- coding: utf-8 -*-
# @Author  : 代码永不报错
# @File    : 爱企查.py
import requests


def main(key_word, num):
    params = {
        "q": key_word,
        "t": "",
        "p": num,
        "s": "10",
        "o": "0",
        "f": "{}"
    }
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36",
        "Referer": "https://aiqicha.baidu.com/s?q=%E6%95%B0%E6%8D%AE&t=0"  # 防盗链

    }
    url = "https://aiqicha.baidu.com/s/advanceFilterAjax"
    response = requests.get(url, headers=headers, params=params)
    # print(response.json())
    resultList = response.json()["data"]["resultList"]
    for item in resultList:
        print(item)


if __name__ == '__main__':
    key_word = "科技"  # 搜索公司
    num = "2"  # 页码
    main(key_word, num)

        针对本文中的网页,除了文章在抓包时,找不到,而使用了这种“投机取巧”方法外,用selenium抓取也是可行的,速度慢一些,但是可以满足要求。小编相信肯定还有其他的方法的,也欢迎大家在评论区谏言。

 

  • 4
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 19
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值