基于多任务学习的快件送达时间预测方法

最新推荐文章于 2025-05-31 01:36:26 发布

当交通遇上机器学习

最新推荐文章于 2025-05-31 01:36:26 发布

阅读量2.3k

点赞数 2

文章标签：算法 python 计算机视觉机器学习人工智能

本文链接：https://blog.csdn.net/zuiyishihefang/article/details/120755778

版权

1、文章信息

文章题目为《基于多任务学习的快件送达时间预测方法》，发表在计算机工程期刊上的一篇有关多任务学习预测的文章。

2、摘要

快件送达时间预测是物流领域中一项至关重要的服务。准确地预测快件送达时间一方面可以为用户提供更准时的服务，提升用户体验，另一方面可以帮助快递员进行路径规划，提高派送效率。但快件送达时间预测仍面临许多困难与挑战，主要有以下三个方面：

快件派送受到多种复杂因素影响。快件的送达时间不仅与交通状况、快件本身属性、外界天气等有关，快递员的派送偏好、快件所在地的环境、客户的个性化要求等因素都会对快件送达时间产生影响。快件派送状态存在动态性。在快递员派送快件过程中，快递员位置、已派送快件序列、待派送快件集合等均会发生改变，会导致快件的送达时间随派送过程动态变化。多目的地预测。本研究需要同时预测快递员的所有待派送快件的送达时间，不同于单目的地预测问题，快件的组合、彼此之间距离、派送顺序均会对每个待派送快件产生影响，如何保证多目的地预测的整体准确性也是本研究一大难点。

文章提出了一种基于多任务学习的模型（MTDTN），从快递员的大量历史时空轨迹中学习如何预测快件送达时间。MTDTN 充分建模多种影响送达时间的外部因素，使用地理信息编码、卷积操作以及双向长短时记忆网络来捕获派送行为的时空关系，并使用多任务学习框架，引入顺序预测辅助任务，提高了模型预测性能。在真实数据集上的实验结果表明，MTDTN 的表现优于其他现有方法。

3、文章结构

介绍了机器学习、深度学习在快件送达时间预测方面的应用以及存在的问题，通过汲取前人的优点，提出了结合多任务学习的MTDTN模型。
介绍了模型的基本变量的定义，以及模型的框架以及框架中每一部分的具体功能及目的。
通过上海市合计61天的数据进行模型的训练、验证、测试，用于估计快件送达时间的预测。
结果讨论，表明这种多任务学习的框架要优于一些现有的预测方法。

4、模型结构

模型旨在解决当存在不同快件的多个目的地时，快件送达时间的预测，文章的主要模型框架如下图所示。

图 1 MTDTN模型框架

整个MTDTN模型可以分为四个部分：

1、外部因素表示模块，为了建模整个派送过程中时间不变性特征、待预测快件的特征以及快递员的画像表示，本模块对外部因素进行信息嵌入，它的输出将作为其他三个模块的输入；

2、派送路径表示模块。已派送快件序列对剩余快件的送达时间至关重要，本模块通过卷积神经网络及双向LSTM捕获时空轨迹的空间及时间相关性，建模已派送路径；

3、顺序预测模块。为了更好解决多目的地预测问题，本模块选择历史轨迹数据中相似快件序列集合，使用注意力机制完成信息提取与组合，继而与外部因素模块拼接，进行派送顺序预测；

4、多任务融合模块。本模块作为预测任务的输出层，融合其他模块表示向量，结合顺序预测的辅助任务与送达时间预测的主任务，输出快件送达预测时间。

对每个部分进行细致解释。

外部因素表示模块

本文将影响快件送达时间的因素分为三类：全局相关信息、待预测快件o_j的相关信息、快递员的特征统计信息。

全局相关信息包括轨迹数据对应的日期、周次、区域编码、快递员编号，由于数据均为离散的数值，无法直接输入网络，文章应用了嵌入层表达全局信息，具体做法是通过乘以一个学习的参数矩阵W，其维度为FE，其中F表示全局特征的类别数，E表示自定义嵌入向量的维度，进而得到V_global。

待预测快件o_j的相关信息包括o_j相对于快递员首个派送快件o_first的转移方向，实际距离以及o_j的地址类型，地址类型采用one-hot编码。（补充：one-hot编码又称一位有效编码是将分类变量作为二进制向量的表示。主要采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有以为有效。可以理解为将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1参考blog.csdn.net/qq_15192373/article/details/89552498）。

最后将V_global、预测快件信息、快递员统计特征拼接后得到V_concat输入到全连接层中，得到V_fea。

派送路径表示模块

该模块主要由三部分组成，首先使用Geo-hash对快件轨迹进行地理信息编码；继而将输入的轨迹序列使用卷积捕获空间转移的局部相关性；最后输入双向LSTM捕获时间相关性，得到派送路径的向量表示。

（补充：双向LSTM网络\双向RNN网络。RNN和LSTM都只能依据之前时刻的时序信息来预测下一时刻的输出，但在有些问题中，当前时刻的输出不仅和之前的状态有关，还可能和未来的状态有关系。比如预测一句话中缺失的单词不仅需要根据前文来判断，还需要考虑它后面的内容，真正做到基于上下文判断。双向RNN网络（BRNN）由两个RNN上下叠加在一起组成的，输出由这两个RNN的状态共同决定。双向卷积神经网络的隐藏层要保存两个值， A 参与正向计算， A' 参与反向计算。最终的输出值y取决于A和A'。）

图 2 双向LSTM\双向RNN示意图

顺序预测模块

由于存在多个目的地快件需要同时预测，文章通过对派送顺序的预测，使模型从相关任务提取特征，得到待派送快件大致顺序，使得到达时的预测更加准确。该模块为辅助任务，其损失函数为：

多任务融合模块

该模块使用全连接层对快件的送达时间的预测结果进行输出。通过将外部表示向量，派送路径表示向量，最相关组合向量进行拼接，得到最终的输入向量，送达时间预测采用平均绝对误差作为损失函数。

5、实验结果及分析

文章的实验数据集来自某快递企业在上海市的 2 个运营区域 2019年11月1日至12月31日共计61天的快递员派送数据，共计有931个快递员，45万条快件数据。选择 11月 1日至12月10日共计40天的派送数据作为训练集，12月11日至20日共计10天的派送数据作为验证集，12月21日至31日共计11天的派送数据作为测试集。采用平均绝对误差MAE和平均绝对百分比误差MAPE作为评价指标，结果如下。