一.分析网站
url = 'http://xian.8684.cn/'
1.第二层路线xpath:
# 查找以数字开头的所有链接
number_href_list = tree.xpath('//div[@class="list"][1]/a/@href')
# 查找以字母开头的所有链接
char_href_list = tree.xpath('//div[@class="list"][2]/a/@href')
2.准确路线xpath:
route_list = tree.xpath('//div[@class="list clearfix"]/a/@href')
3.提取所需要爬取的内容:
3.1获取公交信息:
bus_number = tree.xpath('//div[@class="info"]/h1/text()')[0]
3.2 获取运行时间:
run_time = tree.xpath('//ul[@class="bus-desc"]/li[1]/text()')[0]
3.3获取更新时间:
laster_time = tree.xpath('//ul[@class="bus-desc"]/li[4]/text()')[0]
3.4获取上行总站数:
up_total = tree.xpath('//div[@class="layout-left"]/div[4]/div/div[@class="total"]/text()')[0]
或
up_total = tree.xpath('//div[@class="layout-left"]/div[5]/div/div[@class="total"]/text()')[0]