python爬取机票信息

python爬取机票信息

飞机和高铁列车不同,在同样的航线中有着不同的票价,借此我们希望获取尽量多的机票信息来分析机票的变化规律。
首先我们选取京东机票为爬取对象http://jipiao.jd.com/,以北京至上海为例,我们审查元素发现机票信息存在 li 标签中,我们先尝试用requests获取网页源码。

import requests

def 获取(url,headers):
    try:
        r = requests.get(url,headers = headers)
        r.encoding = 'utf-8'   #统一编码utf-8
        if r.status_code == 200:
            return r.text
        else:
            print('获取错误')
    except:
        return '其他错误'
    

运行后我们发现print的内容中并不包含机票信息,这其实是因为网站采用的是Ajax开发,这时用requests请求就没有意义了,因此我们改用selenium库(模拟浏览器行为的库)爬取。

  1. 使用pip下载selenium库
pip install selenium
  1. 引入selenium后,我们选用chrome进行爬取
from selenium import webdriver

def 获取(url):

    browser = webdriver.Chrome()
    browser.get(url)
    time.sleep(10)  #加载Ajax信息,防止代码不全
    page_code = browser.page_source
    browser.close()
    
    return page_code
  1. 采用beautifulsoup4进行解析
from bs4 import BeautifulSoup

审查元素发现航空公司,机型,起飞时间,票价信息包含在class=flight-content标签中li标签的fore1,fore2,fore4标签中

def 解析(page_code):
    
    soup = BeautifulSoup(page_code,'lxml')
    items = soup.find_all('div',class_='flight-item')
    allitems = []
    
    for item in items:
        single = []
        
        fore1 = item.find('div',class_="f-name")  #航空公司
        single.append(fore1.string)
        
        fore12 = item.find('span')    #机型          
        single.append(fore12.string)
        
        fore2 = item.find('div',class_="f-time")  #起飞信息
        single.append(fore2.string)
        
        fore4 = item.find('span',class_="f-price")
        single.append(fore4.string)
        
        allitems.append(single)
        
    return allitems

现在当日的机票信息均已保存在allitems中了。

4.爬取工作已做好,现在利用format对打印出的结果进行简单的页面优化

def 排版(allitems):
    print("{:^10}{:^14}{:^8}{:^6}".format("航空公司","机型","起飞时间","票价"))
    num = len(allitems)
    for i in range(num):
        u = allitems[i]
        print("{:^10}{:^14}{:^8}{:^6}".format(u[0],u[1],u[2],u[3]))

得到结果:
在这里插入图片描述
注:1.本文爬取的是2020年4月17日北京至上海的机票信息,逾期可能无法正常输出,如要修改时间或地点请自行修改url。
2.如果没有chrome浏览器则无法正常使用,webdriver的版本要和chrome版本匹配,并且要添加到环境变量中,否则无法正常驱动。
3.源码可私聊,欢迎大神斧正。

  • 7
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 35
    评论
评论 35
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值