提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
用爬虫爬取全国城市名称
一、Python数据解析xpath模块应用
继续学习了一下xpath模块的应用
二、代码与解析
1.代码
代码如下:
import requests
from lxml import etree
if __name__ == "__main__":
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'
}
url = 'https://www.aqistudy.cn/historydata/'
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
host_li_list = tree.xpath('//div[@class="bottom"]/ul/li')
all_city_names = []
for li in host_li_list:
host_city_name = li.xpath('./a/text()')[0]
all_city_names.append(host_city_name)
city_names_list = tree.xpath('//div[@class="bottom"]/ul/div[2]/li')
for li in city_names_list:
city_name = li.xpath('./a/text()')[0]
all_city_names.append(city_name)
print(all_city_names,len(all_city_names))
2.分析
我们通过使用xpath模块进行数据解析,先分别对热门城市和全部城市进行爬取并存储再列表中,最后输出列表并使用len函数对全国所有城市进行统计。3.结果
该处使用的url网络请求的数据。