爬取企查查公司URL

import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver import ActionChains

a = []
def login(driver):
    driver.delete_all_cookies()
    url = "https://www.qcc.com/weblogin?back=%2F" #https://www.qcc.com/weblogin?back=%2F
    driver.get(url)
    time.sleep(10)

     # 点击密码登入/html/body/div[1]/div[3]/div/div[2]/div[1]/div[2]/a
    driver.find_element_by_xpath('/html/body/div[1]/div[3]/div/div[2]/div[1]/div[2]/a').click()
    time.sleep(1)

    # 输入账号密码
    #driver.find_element_by_id('nameNormal').send_keys(username)  # /html/body/div[1]/div[3]/div/div[2]/div[3]/form/div[1]/input
    driver.find_element_by_xpath('/html/body/div[1]/div[3]/div/div[2]/div[3]/form/div[1]/input').send_keys("199......")
    driver.find_element_by_xpath('/html/body/div[1]/div[3]/div/div[2]/div[3]/form/div[2]/input').send_keys("13.......")

    button = driver.find_element_by_xpath('/html/body/div[1]/div[3]/div/div[2]/div[3]/form/div[3]/div/div/div[1]/span')
    #滑动滑块//*[@id="nc_1__scale_text"]/span//*[@id="nc_1__scale_text"]
    ActionChains(driver).click_and_hold(button).perform()

    ActionChains(driver).move_by_offset(xoffset=308, yoffset=0).perform()
    ActionChains(driver).release().perform()

    time.sleep(2)#/html/body/div[1]/div[3]/div/div[2]/div[3]/form/div[4]/button
    driver.find_element_by_xpath('/html/body/div[1]/div[3]/div/div[2]/div[3]/form/div[4]/button/strong').click()# 点击登录
    time.sleep(0.5)#https://www.qcc.com/web/search?key=%E6%B7%98%E5%AE%9D&p=2
    url_a = ['https://www.qcc.com/web/search?key=%E6%B7%98%E5%AE%9D&p={}',#淘宝
             'https://www.qcc.com/web/search?key=%E5%A9%9A%E5%BA%86&p={}',#婚庆
             'https://www.qcc.com/web/search?key=%E6%8A%A5%E7%A4%BE&p={}',#报社
             'https://www.qcc.com/web/search?key=%E7%A7%91%E6%8A%80&p={}',#科技
             'https://www.qcc.com/web/search?key=%E7%94%B5%E5%AD%90&p={}',#电子
             'https://www.qcc.com/web/search?key=%E7%94%9F%E6%B4%BB&p={}'#生活
             ]
    num = 1
    for r in url_a:
        for j in range(1,6):
            driver.get(r.format(j))
            for i in range(1,20):
                try:
                    d = driver.find_element_by_xpath('/html/body/div[1]/div[2]/div[2]/div[4]/div/div[2]/div/table/tr[{}]/td[3]/div/a[1]'.format(i))
                    print('第{}条----->>>'.format(num),d.get_attribute("href"))
                    num += 1
                    a.append(d.get_attribute("href"))
                except:
                    pass
            time.sleep(5)
    da = pd.DataFrame(a)
    da.to_csv('E:\movieinfo3.csv')
    driver.close()


def main():
    while True:
        option = webdriver.ChromeOptions()#配置 chrome 启动是属性的类,就是初始化
        option.add_experimental_option('excludeSwitches', ['enable-automation'])  # webdriver防检测,开发者模式,防止被识别出来

        option.add_argument("--disable-blink-features=AutomationControlled")#添加启动参数,隐藏webdriver
        option.add_argument("--no-sandbox")#解决DevToolsActivePort文件不存在的报错
        option.add_argument("--disable-dev-usage")
        option.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})#添加实验性质的设置参数
        driver = webdriver.Chrome(executable_path=r"E:\chromedriver\chromedriver.exe",options=option)
        driver.set_page_load_timeout(15)#加载超时
        login(driver)#调用
        # jugesd(driver)



if __name__ == '__main__':
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'}
    main()


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 好的,我来为你解答。 在 Python爬取企查查的流程大致如下: 1. 安装依赖库:在爬取企查查的过程中,你可能会用到一些第三方库,比如 `requests` 库用于发送 HTTP 请求,`beautifulsoup4` 库用于解析 HTML 网页。因此,你需要使用 `pip` 命令来安装这些库,例如:`pip install requests beautifulsoup4`。 2. 发送 HTTP 请求:使用 `requests` 库中的 `get` 函数,向企查查的服务器发送 HTTP 请求,获取企查查网站的 HTML 源码。 3. 解析 HTML 网页:使用 `beautifulsoup4` 库中的 `BeautifulSoup` 函数,解析 HTML 网页,找到你需要的信息。 4. 提取信息:使用 `beautifulsoup4` 库中的各种方法,比如 `find`、`find_all` 等,提取你想要的信息。 5. 保存信息:将提取出的信息保存到文件中,或者将它们存储到数据库中。 爬取企查查的具体步骤可能会有所不同,但是大致流程是这样的。希望这些信息对你有帮助。 ### 回答2: Python爬取企查查是利用Python语言编写爬虫程序,在企查查网站上自动获取数据。以下是一个简单的300字回答: Python爬虫是一种自动化工具,可以用来获取互联网上的数据。企查查是一个提供企业信息查询的网站,通过Python爬虫,我们可以方便地从企查查上获取企业的相关信息。 首先,我们需要安装Python的相关库,包括Requests库和BeautifulSoup库。Requests库用于向服务器发送请求,而BeautifulSoup库则可以帮助我们解析获取到的页面内容。 接着,我们需要编写爬虫程序。首先,我们需要构建一个URL,该URL包含了我们要查询企业的关键词,我们可以使用Requests库来向企查查发送一个GET请求,将关键词作为参数传递给URL。 然后,我们可以使用Requests库来获取该URL页面内容,将获取到的内容传递给BeautifulSoup库进行解析。在解析的过程中,我们可以使用BeautifulSoup库提供的查找函数,根据页面HTML结构,定位我们想要提取的数据。例如,我们可以通过查找特定的HTML标签,来提取企业的名称、类型、法定代表人等信息。 最后,我们可以将提取到的数据保存到本地文件或者数据库中,以备后续使用。 总而言之,通过Python爬虫,我们可以方便地从企查查网站上获取到企业的相关信息。这种方法不仅简单高效,而且可以帮助我们快速获取大量的数据,为企业研究和决策提供支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值