python爬取机票信息
飞机和高铁列车不同,在同样的航线中有着不同的票价,借此我们希望获取尽量多的机票信息来分析机票的变化规律。
首先我们选取京东机票为爬取对象http://jipiao.jd.com/,以北京至上海为例,我们审查元素发现机票信息存在 li 标签中,我们先尝试用requests获取网页源码。
import requests
def 获取(url,headers):
try:
r = requests.get(url,headers = headers)
r.encoding = 'utf-8' #统一编码utf-8
if r.status_code == 200:
return r.text
else:
print('获取错误')
except:
return '其他错误'
运行后我们发现print的内容中并不包含机票信息,这其实是因为网站采用的是Ajax开发,这时用requests请求就没有意义了,因此我们改用selenium库(模拟浏览器行为的库)爬取。
- 使用pip下载selenium库
pip install selenium
- 引入selenium后,我们选用chrome进行爬取
from selenium import webdriver
def 获取(url):
browser = webdriver.Chrome()
browser.get(url)
time.sleep(10) #加载Ajax信息,防止代码不全
page_code = browser.page_source
browser.close()
return page_code
- 采用beautifulsoup4进行解析
from bs4 import BeautifulSoup
审查元素发现航空公司,机型,起飞时间,票价信息包含在class=flight-content标签中li标签的fore1,fore2,fore4标签中
def 解析(page_code):
soup = BeautifulSoup(page_code,'lxml')
items = soup.find_all('div',class_='flight-item')
allitems = []
for item in items:
single = []
fore1 = item.find('div',class_="f-name") #航空公司
single.append(fore1.string)
fore12 = item.find('span') #机型
single.append(fore12.string)
fore2 = item.find('div',class_="f-time") #起飞信息
single.append(fore2.string)
fore4 = item.find('span',class_="f-price")
single.append(fore4.string)
allitems.append(single)
return allitems
现在当日的机票信息均已保存在allitems中了。
4.爬取工作已做好,现在利用format对打印出的结果进行简单的页面优化
def 排版(allitems):
print("{:^10}{:^14}{:^8}{:^6}".format("航空公司","机型","起飞时间","票价"))
num = len(allitems)
for i in range(num):
u = allitems[i]
print("{:^10}{:^14}{:^8}{:^6}".format(u[0],u[1],u[2],u[3]))
得到结果:
注:1.本文爬取的是2020年4月17日北京至上海的机票信息,逾期可能无法正常输出,如要修改时间或地点请自行修改url。
2.如果没有chrome浏览器则无法正常使用,webdriver的版本要和chrome版本匹配,并且要添加到环境变量中,否则无法正常驱动。
3.源码可私聊,欢迎大神斧正。