python爬虫——requests+xpath 爬取8684公交查询网站

最新推荐文章于 2024-05-14 22:18:18 发布

独听钟声晚

最新推荐文章于 2024-05-14 22:18:18 发布

阅读量3.9k

点赞数 3

分类专栏： python爬虫

本文链接：https://blog.csdn.net/weixin_44321116/article/details/104294550

版权

本文介绍了如何使用Python的requests库结合xpath解析技术，详细分析了8684公交查询网站的页面结构，提取了公交线路、运行时间、更新时间等关键信息，并给出了具体的代码实现步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.分析网站

在这里插入图片描述

url =  'http://xian.8684.cn/'

在这里插入图片描述

1.第二层路线xpath：

# 查找以数字开头的所有链接
    number_href_list = tree.xpath('//div[@class="list"][1]/a/@href')
    # 查找以字母开头的所有链接
    char_href_list = tree.xpath('//div[@class="list"][2]/a/@href')

在这里插入图片描述

2.准确路线xpath：

 route_list = tree.xpath('//div[@class="list clearfix"]/a/@href')

在这里插入图片描述

3.提取所需要爬取的内容：

3.1获取公交信息：

 bus_number = tree.xpath('//div[@class="info"]/h1/text()')[0]

在这里插入图片描述

3.2 获取运行时间：

run_time = tree.xpath('//ul[@class="bus-desc"]/li[1]/text()')[0]

在这里插入图片描述

3.3获取更新时间：

    laster_time = tree.xpath('//ul[@class="bus-desc"]/li[4]/text()')[0]

在这里插入图片描述

3.4获取上行总站数:

    up_total = tree.xpath('//div[@class="layout-left"]/div[4]/div/div[@class="total"]/text()')[0]
    或
    up_total = tree.xpath('//div[@class="layout-left"]/div[5]/div/div[@class="total"]/text()')[0]