Python 实现通过Baidu地图批量自动查询Excel表中各单位的地址

最新推荐文章于 2025-03-05 20:00:00 发布

Renaissance5K

最新推荐文章于 2025-03-05 20:00:00 发布

阅读量1.6w

点赞数 7

分类专栏： python

本文链接：https://blog.csdn.net/wukai0909/article/details/88321335

版权

该程序使用Python结合selenium、openpyxl和BeautifulSoup库，实现从Excel表格读取公司名称，模拟用户在Baidu地图上查询地址，并自动提取结果。selenium用于模拟浏览器操作，BeautifulSoup则负责解析网页内容，提取地址信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本程序通过selenium模块模拟打开baidu地图网页，输入公司名称来查询地址，最后采用BeautifulSoup模块实现公司地址提取。

采用openpyxl模块读取Excel的.xlsx后缀文件并处理数据，主要是读取Excel的各单位和公司的名称。

采用selenium模块(浏览器自动化测试框架)，是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作网页一样。

采用BeautifulSoup模块对网页进行解析实现网页内容提取。

# coding=utf-8
from openpyxl import Workbook
from openpyxl import load_workbook
# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException, WebDriverException
import re, pandas as pd
import time
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

def coordinate():
    # 创建浏览器驱动对象
    driver = webdriver.Chrome()
    driver.get('http://api.map.baidu.com/lbsapi/getpoint/index.html')
    # 显式等待，设置timeout
    wait = WebDriverWait(driver, 1) #等待的最大时间
    # 判断输入框是否加载
    input = wait.until(
        EC.presence_of_element_located(
            (By.CSS_SELECTOR, '#localvalue')))
    # 判断搜索按钮是否加载
    submit = wait.until(
        EC.element_to_be_clickable(
            (By.CSS_SELECTOR, '#localsearch')))
    # 输入搜索词，点击搜索按钮

    # 有时候我们希望读取到公式计算出来的结果，可以使用load_workbook()中的data_only属性
    wb = load_workbook(u'C:\\Users\\kai\\Desktop\\Group_Address.xlsx', data_only=True)
    ws = wb.active
    rows = []
    for row in ws.iter_rows():
        rows.append(row)

    print u"行高：", ws.max_row
    print u"列宽：", ws.max_column
    for i in range(1, ws.max_row):  # row
        # print  rows[i][0], rows[i][0].value, type(rows[i][0].value)
        print  rows[i][0], rows[i][0].value,
        # coordinate(rows[i][0].value)
        input.clear()
        input.send_keys(rows[i][0].value) # u'浙江工业大学'
        submit.click()
        time.sleep(1)
        try:
          # 等待坐标
          wait.until(
              EC.presence_of_element_located(
                  (By.CSS_SELECTOR, '#no_0')))
        except TimeoutException:
          print ('百度地图查不到地址')
          continue
         # 获取网页文本，提取经纬度
        source = driver.page_source
        soup = BeautifulSoup(source, 'lxml')  #
        i = 0
        for li in soup.select('ul.local_s > li'):
           print li.get_text()
           i += 1
           if i > 0:
              break
    # 关闭浏览器驱动
    driver.close()

coordinate()

最低0.47元/天解锁文章