阅读3Hierarchical integrated machine learning model for predicting flight departure delays and...

文章信息

本周阅读论文题目为《Hierarchical integrated machine learning model for predicting flight departure delays and duration in series》,是一篇2021年发表在Transportation Research Part C 涉及利用分层集成学习模型按序预测航班延误状态以及延误持续时间的文章。

摘要

文章提出了一种新型的分层集成学习模型,用于按顺序不是并行地预测航班起飞延误和持续时间,以避免决策中的模糊性。文章对采用各种机器学习算法和不同的采样技术的集成模型进行分析,并用一家香港的国际航空公司提供的高噪声、不均衡、分散、扭曲的历史高维数据证明模型的实用性结果显示,在4小时预测范围内,采用SMOTETomek采样技术的建设性神经网络算法能够实现更好的平均平衡召回率,对延迟状态分类以及阈值为60分钟和30分钟的延迟持续时间预测精度分别为65.5%,61.5%,59%。同样,对于少数标签,precision-recall 曲线下面积表明,所提出的模型在60 min和30 min阈值下分别取得了32.44%和35.14%的更好结果,而平行模型分别取得了26.43%和21.02%。对不同抽样技术、抽样方法以及评估机制对预测性能的影响也进行了研究。

1.介绍

在2018/2019年全球国际航班延误率高达21.19%,高飞行延误率促使人们进行研究,并迫切需要提出一种可靠的机器学习预测模型,使得航空公司做出更明智的决策。文章在航班延误预测方面对现存研究的多个局限方面进行解决:
1)在超过特定阈值的情况下并行实施多个模型可能会导致决策不唯一的情况发生。针对此问题,研究提出了一个分类模型,且该模型是按顺序而不是并行实现的,此模型可以对任意阈值进行应用并且可以避免决策的模糊性。
2)现存研究主要根据国内航班数据展开,然而国际航班与国内航班有很多地方需求不同,因此只对国内航班进行分析对延误预测有一定程度的影响。文章使用香港国际航线进行分析,提出一种分层集成模型。
3)航班延误问题曾以回归问题、分类问题、两者结合被考虑。作为分类或回归问题研究都具有一定的挑战。研究解决了回归和分类评估机制的挑战,并提出了一种合适的航班延误预测方法。
4)为平衡分类的数据集采用random over-sampling 或 random under-sampling采样技术,这可能会导致过拟合和欠拟合情况,文章研究了各种采样技术以平滑决策边界并提高机器学习方法的预测准确性。现有研究对训练集和测试集都应用了采样技术,文章只对训练集平衡采样,通过与原始测试集进行比较来衡量性能,以探究对训练集和测试集都进行抽样是否会导致错误的决定。
5)消除了传统神经网络中输入和隐藏单元的线性依赖性、深度学习隐藏层中的隐藏单元数、机器学习算法中广泛的超参数调整,无需使用者自己定义输入。

2.航班延误问题描述

研究重点在于根据可用的运营参数信息,预测航空公司航班起飞延误和四小时预测范围内的可能持续时间。根据IAIA,航班起飞延误原因被划分为9类。图1描述了造成起飞延误的各种类别的占比。
在这里插入图片描述

4.分层集成模型的提出

3个级别,以30min和60min为阈值的分层集成模型:
在这里插入图片描述
根据航空公司的需求,航班起飞延误状态和持续时间的分层集成模型可以扩展到任意数量的阈值和级别,以方便他们做出明智的决策。

5.机器学习方法描述

BP神经网络(BPNN)、级联相关神经网络(CCNN)、CPCLS、支持向量机(SVM)、平均法/投票法集成学习、随机森林(RF)、梯度提升决策树(GBDT)和极限梯度提升算法(XGBoost)

6.Numerical experimental work

6.1数据来源以及预处理

航空公司提供的航班延误预测的历史数据包括19105次国际客运和货运航班。实际飞行时间超过两年,从2015年4月到2017年3月,覆盖了8个国际OD(或扇区)机场,总共运行了107架宽体飞机。下表2提供了用于预测出发延误的数据属性的信息。对于连续变量continuous variables,将数据进行归一化normalization,压缩到[0,1]之间;而对于分类变量categorical variables,使用one hot encoding为每个类别创建一个二进制向量。属性选择:航空公司提供的信息+上图1所示的各延误原因类别的重要性。
在这里插入图片描述

6.2起飞延误预测

6.2.1 Delay prediction as a regression problem

对于回归,目标在于最小化真实情况和预测延误的误差——MAE
真实情况(test):
在这里插入图片描述
预测的起飞延误:
在这里插入图片描述
table1 和table3对比分析可以看出,对于该历史航班数据集,回归可能不是一种合适的方法。为了探究原因,用The one sampleKS normality test 以及Quantile-Quantile plot (Q-Q plot)分析得出,真实数据分布是非正态性的。研究通过各种预处理和转换技术尝试改进数据分布,使其满足正态性。(在预处理过程中,去除极值、长尾、离群值和噪声数据;在转换过程中,通过取平方根或取对数来改善分布。)但是最终最小化目标函数方面没有显示出显著的支持。

6.2.2 Delay prediction as a classification problem

6.2.2.1. Delay prediction results with the original dataset.
在这里插入图片描述
用原始数据集进行延误预测,Table4结果显示,预测结果在标签为delay的更高频,这是不合适的,原因归结于数据集不平衡——19105航班中,72%属于延误、28%属于准时。为克服这一困难,各种采样技术被推荐来平衡标签类别、去除噪声、去除在决策边界上重叠的数据。

6.2.2.2. Sampling techniques for class imbalance and decision boundaries overlapping.
用于解决class imbalance和class overlapping采样技术主要包括 under-sampling,over-sampling and hybrid (combination) approaches
各采样方法获得的训练集与原始数据集见下图3。
在这里插入图片描述

6.2.2.3. Delay prediction results with a sampled dataset.
通过对八种采样方法和各机器学习方法的组合得到预测结果指标,结果显示,与其他分类器相比,采用SMOTETomek 采样方法的hypo - freeCPCLS分类器能够获得更好的预测性能。

值得注意的是,研究只将采样技术用于训练集中,而模型的表现是用原始的测试集进行评估的。为探究对训练集和测试集同时进行抽样,是否会造成不准确的结果,使用hypo-free CPCLS分类器,分别用SMOTETomek 和SMOTEENN抽样方法,对两种方式(只应用于训练集;训练集和测试集都抽样)进行对比。Table7 结果显示,在训练集和测试集上都进行采样,会造成结果的不准确性。
在这里插入图片描述
综上,使用不同的采样技术、采样方法和估计方法组合的实验工作表明,使用SMOTETomek采样技术的hyp-free CPCLS分类器只应用于训练集可以显示出可靠的结果。

6.2.2.4. Hierarchical integrated model prediction results.
根据上文4.分层集成模型的提出 中说明的3个级别,以30min和60min为阈值的分层集成模型(Fig2)对延误持续时间进行分类。
召回准确率和学习时间是理解hyp-free CPCLS分类器可扩展性的有用指标。**可扩展性被定义为训练规模增加对分类器计算性能的影响。**训练规模对准确性和学习时间有相同的效果。对比研究表明,1级(19105个航班)在0.73 s内平均精度达到65.5%,2级(13792个航班)在0.62 s内平均精度达到61.5%,3级(11071个航班)在0.51 s内平均精度达到59%。对于这三个层次,结果是一致的——从小数据集到大数据集,准确率在提高,训练时间在增加。
在这里插入图片描述

6.2.2.5. Factors influencing flight delay.
The mutual information (bits) evaluation method was adopted to determine the most influencing factor that highly contributes to the flight delay.
在这里插入图片描述
在这里插入图片描述
Fig5显示,short-range flights 平均延误时间比long-range flights 短。
在这里插入图片描述

6.2.2.6. Comparison of hierarchical integrated (series) model with parallel model and multiclass classification scheme.

1.Comparison of hierarchical integrated (series) model with parallel model:the precision-recall curve
在这里插入图片描述
结果表明,按顺序的模型有助于改善阈值少数群体预测的PR曲线,即按顺序的模型比并行模型更适合预测航班延误和持续时间。
2.Comparison of the series model with the multiclass classification scheme
the multiclass classification scheme: For instance, the flights with no delay were labelled as “on-time”, flights with delay 1 to 30 min were labelledas “1–30 min”, flights with delay 31 to 60 min were labelledas “31–60 min” and flights with delay greater than 60 min were labelled as “>60 min”. This results in a total of four labels for multiclass classification prediction.
在这里插入图片描述
Table9与上文的Table8对比分析得出结论。

6.2.2.7. Prediction of delay category.
上文中的Fig1描绘了飞机延误的主要原因,由于hyp-free CPCLS_SMOTETomek方法在预测航班起飞延误状态和延误时间方面效果较好,这促使我们检验该方法在预测延误类别方面的性能。
在这里插入图片描述
结果表明:航空公司对空中交通管制和政府当局施加的限制控制较少,是造成长时间延误的主要原因。

6.2.2.8. Managerial implications and future work.
Managerial implications:
1.in series 而不是并行的模型,提升了预测准确性。2.在分层集成模型中使用二进制标签以及数据采样技术使其成为回归和多类分类的最佳替代方法。3.研究考虑了所有延误类别造成的航班延误数据,而不是只考虑一个特定类别的延误。

future work:
1.预测精度待提高:延迟状态和持续时间的平均均衡召回正确率分别为65.5%、61.5%和59%,延迟类别的平均均衡召回正确率为63.25%,有待进一步提高。1.获取关于类别的信息,以及每个航班对应的延迟时间。其思想是预测每个类别的航班延误状态和持续时间,并分析组合类别中各子类别的重要性,以提高预测精度,进一步改进决策过程。2.研究的数据存在很多弊端,未来将努力获取更多的航班延误数据和属性信息,如机组人员分配、到达和离开机场的空中交通限制、入境强制安检、飞机轮转等,这将有助于最大限度地减少class overlapping问题,提高预测精度。
2.机器学习算法在大数据面前的模型可扩展性待探究。
3.更细化深入的探究飞机起飞延误的影响因素

7.总结

为了避免决策中的歧义,文章提出了一种将航班起飞延误状态和延误时间按顺序而非并行的层次集成学习模型。通过获取在香港运营的国际航空公司的历史高维数据,验证了该模型的性能。高分散、右偏、噪声和不平衡的数据使得估算机制难以真正估计航班起飞延误情况。我们的研究结果表明,在回归和多类分类估计机制无法执行的应用中,所提出的模型是最佳的替代方案。我们对SL-BPNN、DL-BPNN、SVM、hyp-free CPCLSEnsembles、RF、GBDT和XGBoost估计方法以及各种采样技术进行了各种实验工作和比较,以研究航班延误问题。回归估计机制的统计分析表明SL-BPNN、DL-BPNN、SVM、hyp-free CPCLS、ensembles、RF、GBDT和XGBoost的平均绝对误差分别为47.16 min、38.22 min、39.31 min、36.37 min、37.26 min、36.60 min、36.42 min和36.57 min。使用各种预处理和转换技术并不能改进回归估计性能。多分类机制对标签——准时、1-30 min、31-60 min和>60 min的召回正确率分别为8%、79%、36%和0%,十分不均衡。回归和多类分类的结果表明,当历史飞行数据集高度分散、正向倾斜且类决策边界重叠时,这两种估计机制可能不是一种合适的方法。结果表明,在阈值为60 min和30 min时,结合SMOTETomek采样技术的hyp- free CPCLS机器学习算法对延迟状态和延迟持续时间进行分级分类,平均召回率分别达到65.5%、61.5%和59%。将该模型与并行模型进行比较,结果表明,该模型能够更准确地预测少数类标签。precision-recall曲线下面积表明,在阈值为60 min和30 min时,本文模型的召回率分别为32.44%和35.14%,而并行模型的召回率分别为26.43%和21.02%。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在模型无关的分层强化学习中,学习表示是一项重要的任务。学习表示是指通过提取有用的信息和特征来将观察数据转化为表示向量。这些表示向量可以用于解决强化学习问题中的决策和行动选择。 模型无关的分层强化学习是指不依赖于环境模型的强化学习方法。它通常由两个部分组成:低层控制策略和高层任务规划器。低层控制策略负责实际的行动选择和执行,而高层任务规划器则负责指导低层控制策略的决策过程。 学习表示在模型无关的分层强化学习中起到至关重要的作用。通过学习适当的表示,可以提高对观察数据的理解能力,使得模型能够捕捉到环境中的重要特征和结构。这些表示可以显著减少观察数据的维度,并提供更高层次的抽象,从而简化了决策和规划的过程。 学习表示的方法多种多样,包括基于深度学习的方法和基于特征选择的方法。基于深度学习的方法,如卷积神经网络和循环神经网络,可以通过学习多层次的特征表示来提取环境观察数据的有用信息。而基于特征选择的方法则通过选择最有信息量的特征来减少表示的维度,从而简化了模型的复杂度。 总之,学习表示在模型无关的分层强化学习中起到了至关重要的作用。通过学习适当的表示,模型可以更好地理解观察数据并进行决策和规划。不同的方法可以用来实现学习表示,包括基于深度学习的方法和基于特征选择的方法。这些方法的选择取决于具体任务和问题的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值