输入企业名称,爬取企业地址

本文介绍如何通过企业名称进行网络爬虫,获取相应企业的详细地址,同时探讨可能扩展的其他信息抓取方法。
摘要由CSDN通过智能技术生成

输入企业名称,爬取企业地址,你也可以添加其他信息进去。

# -*- coding: utf-8 -*-
"""
Created on Tue Jul 23 14:11:50 2019

@author: Administrator
"""

import requests
import lxml
import sys
from bs4 import BeautifulSoup
import xlwt
import time
import urllib
import random
from pyquery import PyQuery as pq
 
def get_user_agent():
    user_agent_list = ["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.
Selenium是一种自动化测试工具,也可以用于爬取网页数据。爬取企查查多个企业信息时,我们可以通过Selenium模拟浏览器操作,实现自动登录、搜索企业、点击企业详情等功能,然后获取所需的企业信息。 首先,我们需要安装Selenium库,并通过webdriver来实例化一个浏览器对象。常用的浏览器有Chrome、Firefox等,选择一个适合自己的浏览器。 接下来,我们可以使用浏览器对象打开企查查的网址,并自动填入账号和密码进行登录。登录成功后,我们可以通过find_element_by_xpath或find_element_by_css_selector等方法找到搜索框,输入要搜索的企业名称,然后点击搜索按钮。 搜索结果页面会显示多个企业的简要信息,我们可以通过find_elements_by_xpath或find_elements_by_css_selector等方法找到这些企业的元素。遍历这些元素,可以获取企业的名称、法人代表、注册资本、成立日期等信息,并保存到想要的数据结构中。 如果需要获取企业的更详细信息,可以点击更多详情按钮或者直接点击企业的名称链接,进入企业详情页面。在详情页面中,我们可以使用相似的方法获取企业的详细信息,如联系方式、注册地址、经营范围等。 爬取多个企业信息时,可以使用循环遍历的方式,每次爬取一个企业的信息,然后保存到合适的数据结构中。可以使用字典、列表、CSV文件等形式来保存企业的信息。 需要注意的是,爬取企查查多个企业信息时,要遵守网站的使用规则和法律法规,尊重企业的合法权益,不要对网站进行恶意攻击或批量爬取大量数据。在进行爬取操作之前,最好查阅网站的相关政策和声明,并尽量避免对网站造成过大的负荷。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值