近期根据领导布置工作,改了改自己的T眼查爬虫代码,通过Xpath来寻找企业工商变更信息,亲测比较好用,但是需要提前拿VIP账号登录(手动狗头),分享给大家,有改进的地方请大家指教。
输入是通过excel读取企业list,最终输出是将爬取内容写入另一个新的excel,具体资源已上传本人资源模块。
# -*- coding: utf-8 -*-
"""
@author: xjt
"""
# -*- coding: utf-8 -*-
import time
from selenium import webdriver
from read_comp_names_from_xlsx import read_comp_names_from_xlsx
import json
import solve
from selenium.common.exceptions import NoSuchElementException
import write_data_to_xls
# from log import log_in
def spide_tianyan():
names = read_comp_names_from_xlsx() # 读取公司名称
data = []
error_data = [] # 存放因为错误没有爬取成功的公司名称
col = 1
# 第一步,输入公司名称
driver = webdriver.Chrome()
for name in names:
company_json = ''
holder_json = ''
invset_json = ''
invset_flag=True
try: