【论文笔记】基于案例推理的驾驶员超速行为预测方法

请我喝好果汁

已于 2024-01-11 15:24:54 修改

阅读量1.8k

点赞数 37

分类专栏：交通相关论文文章标签：论文阅读笔记

于 2024-01-11 15:23:07 首次发布

本文链接：https://blog.csdn.net/wjt_0167/article/details/135442973

版权

交通相关论文专栏收录该内容

4 篇文章

订阅专栏

博客声明：本文仅为个人论文阅读笔记，大部分原文对照的中文为翻译而来，只对其中错误明显的部分作了修改。其他一些个人理解不到位或有误的地方也尽请见谅。

标题原文： Predicting Drivers’ Speeding Behaviour: A Case-based Reasoning Approach
论文来源： The 7th International Conference on Transportation Information and Safety, Aug 4-6, 2023, Xi’an, China
论文DOI： 10.1109/ICTIS60134.2023.10243779
关键词： case-based reasoning, risky decision making, traffic safety
网络模型结构：
- 案例检索：采用弱支配决策标准，分为两步1.NHF搜索（非人为因素）2.HF搜索（人为搜索）
- 案例利用：分为两类算法，风险寻求（激进）和风险规避（保守）。与逻辑回归模型进行实验对比。
数据集：广东省的官方交通事故数据，分为四个场景，能见度好坏条件下的广州市和汕尾市。
总结：Case-Based Reasoning是一种依据过去解决类似问题所积累的案例来求解新问题的推理模式，用“类比推理”的方法进行机器学习解决问题的过程。本文使用这种方法来识别常见的交通违规行为——超速，识别和预测司机的危险行为来避免交通事故。构建了一个案例库、检索和利用三个模块构成的基于案例的系统，使用四类属性来描述案例，分为非人为因素：道路信息、环境因素、车辆信息，和人为因素：人口统计信息，来高效检索案例，通过风险寻求和风险规避两种算法综合多种因素做出预测。本文基于官方来源的中国广东省交通事故数据，在四种场景下进行实验并与广泛应用的逻辑回归模型对比，在一些指标上获得优势。

0 摘要

为了确保成功的道路安全控制，一些研究试图提出模型和理论来解释和预测司机的危险行为。然而，现有的研究存在一些局限性，包括知识引出、偏见、假设和解释问题。为了帮助识别潜在的危险驾驶行为和避免交通事故，我们开发了一个基于案例的推理系统，可以识别超速——最常见的交通违规行为之一。我们提出的系统可以根据之前的几个类似案例生成目标交通状况的期望值。我们考虑四类因素，包括驾驶员的人口信息、车辆信息、道路状况和环境因素。基于中国交通事故数据，我们对四种情景进行了分析，结果表明，与广泛应用的logistic回归模型相比，基于案例的预测系统具有一定的优越性。我们的研究结果将有助于制定安全促进策略，以降低超速和其他交通违规行为的发生率。

1 Introduction_介绍

为了确保成功的道路安全控制，一些研究试图提出模型和理论来解释和预测司机的危险行为。然而，现有的研究存在一些局限性，包括知识引出、偏见、假设和解释问题。为了帮助识别潜在的危险驾驶行为和避免交通事故，我们开发了一个基于案例的推理系统，可以识别超速——最常见的交通违规行为之一。我们提出的系统可以根据之前的几个类似案例生成目标交通状况的期望值。我们考虑四类因素，包括驾驶员的人口信息、车辆信息、道路状况和环境因素。基于中国交通事故数据，我们对四种情景进行了分析，结果表明，与广泛应用的logistic回归模型相比，基于案例的预测系统具有一定的优越性。我们的研究结果将有助于制定安全促进策略，以降低超速和其他交通违规行为的发生率。
·
到目前为止，模糊推理系统[7]、行为模型[8][9][10]、随机森林（RF）[11][12][5]、隐马尔可夫模型（HMM）[13]、人工神经网络（ANN）[14]和其他一些模型和理论已被用来解释和预测驾驶员的危险行为。然而，这些模型有一些局限性。当使用模糊推理系统和行为模型对驾驶员行为的复杂函数进行建模时，可能会出现知识获取问题[15]。当使用随机森林和隐马尔可夫模型建模时，可能存在偏差问题，更重要的是，应该满足几个假设[16][17]。人工神经网络模型可以同时处理大量高度相关的变量以做出决策，但由于缺乏可解释的内部组件，此类系统仍然被视为黑盒模型[18]。
·
为了解决这个问题，我们将在本研究中采用基于案例的推理（CBR）方法来预测驾驶员的危险行为，特别是驾驶员的超速行为。一方面，CBR系统利用以前的案例来推断新的解决方案，从而无需分解经验并避免知识启发问题[1]；另一方面，与 ANN/RF/HMM 系统相比，CBR 系统具有显着的优点，因为输出的可理解性并且无需先验知识的定义 [19]。
·
近年来，交通控制和管理研究领域对 CBR 概念的采用有所增加。例如，已经开发了许多交通路由和交叉口信号控制的 CBR 系统（例如，[20]-[23]）。此外，CBR方法已被用于支持开发碰撞检测系统[24]、效益估计[25][26]、青少年驾驶员的技能熟练程度[27]和个性化车载驾驶辅助系统[28]。
·
本工作的新颖之处在于以下几个方面。首先，我们开发了一个基于案例的预测系统，可以识别驾驶员潜在的超速行为。所提出的系统根据过去的类似条件，考虑与超速相关的一系列高度综合的风险因素，生成目标交通状况的预期值。其次，本研究没有使用问卷调查和专家意见调查获得的数据，而是使用可靠的官方交通事故数据来源来评估所提出的系统在预测超速方面的能力。第三，与逻辑回归模型相比，我们提出的 CBR 系统在四种考虑场景中的召回率和精确度测量速度，建模方面具有更好的性能。
·
论文结构如下。第二节描述了该方法。第三节介绍了实证结果。第四节总结了这项研究。

2 System design_系统设计

驾驶员超速预测系统的主要目标是根据有关驾驶员、车辆、道路状况和环境条件的信息来确定超速的概率。为此，根据[21][24]，我们提出了一个基于案例的系统，该系统由三个主要组件组成：案例库模块、检索模块和利用模块。案例库模块存储以前的案例及其结果。给定目标案例，检索模块从案例库中确定类似案例，而利用模块利用检索到的案例来获得目标案例的最佳结果。
·
图 1 显示了系统架构的示意图。所提出的系统接收目标信息，并根据该信息构建新案例𝐶𝑡。系统从案例库中检索最相似的先前案例。如果只检索到一个相似案例，则直接将相似案例的结果作为目标案例的结果。如果检索到多个相似案例，则根据案例利用策略获得结果。

A.Case Representation_用例表示

系统中的一个案例代表了之前的交通状况/事故[21]，它由案例编号、案例描述和案例结果组成。形式上，一个案例可以表示如下：
·

Case C=<CN,CD,CO>——𝑪 表示包含所有可能情况的案例库
CN：案例编号；
CD：案例描述；
CO：案例结果（如是否超速）

·
案例描述描述了案例出现时的情况[21][23]。描述案例需要四类属性。第一类包含驾驶员的人口统计信息。第二类描述车辆信息。第三类由描述交通道路状况的属性组成。第四类包含一些环境因素，例如天气情况。因此，我们有：
·

Case description CD = <DD,VI,R,E>
DD：司机的人口统计信息，如性别
VI ：车辆信息，如车辆种类
R：道路信息，如道路种类
E：环境因素，如坏天气

·
上述四类属性可以分为两类，即仅包含第一类属性（即驾驶员的人口统计信息）的人为因素和包含其余属性的非人为因素。我们使用 𝑯𝑭 和 𝑵𝑯𝑭 分别表示人为因素和非人为因素的集合。正式地，我们有：

HF = ⋃{𝐷𝐷|𝐷𝐷 ∈ 𝑪}
NHF = ⋃{𝑉𝐼, 𝑅, 𝐸|𝑉𝐼, 𝑅, 𝐸 ∈ 𝑪}

B.Case Retrieval_案例检索

根据目标信息构建新案例后，下一步就是检索案例。在确定要检索的适当案例时，有两个步骤至关重要。第一步是寻找与目标案例在非人为因素方面最相似的案例。经过该步骤后，检索空间减少，检索效率提高。第二个是精细搜索，在第一步的基础上检索与目标案例在人为因素上最相似的案例。我们将第一步称为 NHF 搜索，将第二步称为 HF 搜索。
·
在大多数情况下，目标案例中的属性不会与检索到的案例中的属性完全匹配[25]。虽然寻找相似案例的传统方法通常涉及使用k最近邻算法，但使用自然语言解释k的最优值并不容易。因此，本文将计算目标案例与案例库中的案例相似度的过程视为一个多属性决策问题。对于这样的多属性决策问题，案例库中的案例是候选决策，人为因素或非人为因素形成属性，目标是指目标案例的案例描述。
给定一个案例库𝑪和一个目标案例𝐶_𝑡，相应的决策框架[29] [30]是一个元组〈D, A, G, DA, GA〉，其中

决策集D = {𝐶𝑁|𝐶𝑁 ∈ 𝑪} ;
属性集 A ⊆ 𝑯𝑭 或 A ⊆ 𝑵𝑯𝑭 ；
目标集 G ⊆∪ {𝐶𝐷|𝐶𝐷 ∈ 𝐶𝑡}；
DA 和 GA 表（指定决策有属性关系和目标满足属性关系）是基于 𝑪 和 𝐶𝑡 构建的。

在本文的其余部分，为了表达清晰和可读性，我们将使用一个特殊的相应决策框架，分配与目标案例的案例描述完全相同的目标，即 G =∪ {𝐶𝐷|𝐶𝐷 ∈ 𝐶_𝑡}。
·
我们采用弱支配决策标准[29]——弱支配决策满足其他决策未满足的目标——在NHF搜索和HF搜索步骤中检索最相似的案例。
·
给定一个案例库𝑪和一个目标案例𝐶𝑡，对于案例库中的任何案例𝐶，（𝐶 与 𝐶𝑡 最相似当且仅当 CN ∈ D 在相应的决策框架〈D, A, G, DA, GA〉中弱占优（其中 CN 是 𝐶 的事例编号）），S(𝐶𝑡)用于表示与𝐶𝑡最相似的案例集。
·
目标案例的结果出来后，就可以衡量案例检索的合理性。由于目标案件的预测结果是根据检索到的案件的结果计算的，因此如果目标案件的预测结果（无论是超速还是非超速）与其实际结果相同，检索被认为是成功的或合理的[24]。

C.Case Utilisation_案例利用

对于每个目标案例，在运行检索机制时，计算目标案例与案例库中的案例之间的相似度，并检索最相似的案例[24]。对于每次检索，我们都会检查最相似的检索案例（或多个案例）是否属于同一类型，即超速或非超速。当预测目标案例结果时，可以以各种方式使用检索到的案例结果的类型。例如，对于给定的目标案例，如果大多数检索到的案例属于“超速”类型，则目标案例的预测结果就是“超速”。这样的预测策略可以称为多数预测。然而，当使用大多数人的预测时，会出现无法解决的情况。一个例子是：对于给定的目标案例，仅检索两种案例，一种是“超速”类型，另一种是“非超速”类型。
·
接下来，我们讨论案例利用问题，即案例利用问题如何反映决策者在预测驾驶员超速行为时对风险的态度[31]。更具体地说，我们在预测中考虑风险寻求和规避风险的态度：

在风险寻求案例中，如果检索到的案例之一属于“超速”类型，则预测结果属于“超速”类型；
在风险规避的情况下，只有当所有检索到的案例都属于“超速”类型时，预测结果才属于“超速”类型。

3 Case study: based on the traffic crash data in China_案例研究：基于中国的交通事故数据

在本研究中，我们使用中国广东省 2006 年至 2010 年期间的交通事故数据。这些数据摘自《交通管理部门特定事件案例数据报告》、中国公安部道路交通事故数据库（中国唯一官方提供的交通事故数据来源）。这些报告包括驾驶员特征、车辆特征、道路状况、事故发生时间、每次事故的环境背景以及事故原因，例如超速等交通违法行为[32]。

A.Scenario Descriptions_场景描述

考虑到驾驶员行为取决于驾驶场景和交通特征[33][34]，本研究考虑了四种场景（见表一）：（i）广州市能见度较差（简称poorVis_GZ），（ii））广州市能见度很好（简称goodVis_GZ），（iii）汕尾市能见度较差（简称poorVis_SW）和（iv）汕尾市能见度很好（简称goodVis_SW）。由于交通事故的原因记录在道路交通事故数据库中，因此每种情况下的超速率是指所有观察到的事故中与超速相关的百分比。

选择这些场景是因为它们具有一些特征，例如气候和超速车辆的百分比，但也因为它们之间存在重要差异。最近的研究表明，驾驶员在不同能见度条件下的行为有所不同，驾驶员可能会在能见度较差的情况下降低车速以降低碰撞风险[35]。因此，我们选择在本研究中研究两种能见度条件（即差和非常好）。此外，我们选择了两个不同的地点进行这项研究。广州市是中国东南部广东省的省会和最大城市。广州作为珠江三角洲的主要制造业中心，被认为是中国最繁荣的城市之一。但由于快速的工业化，它也被认为是污染最严重的城市之一。1 汕尾市是广东东部的一个地级市，其超速率是广东所有 21 个城市中最高的。

B.Case-based Prediction System_基于案例的预测系统

为了评估驾驶员超速行为的预测，我们建立了一个基于案例的预测系统，其中数据集中的每个样本都是一个案例，其结构如表二所示。当向系统提供目标案例时，系统通过首先运行NHF搜索步骤然后运行HF搜索步骤来检索案例库中与目标案例最相似的案例。为了获得最佳预测，我们基于案例的预测系统同时使用风险寻求和风险规避案例利用模型。

案例结构基于KofodPetersen等人[23]和Zhang等人[36]的工作，其中使用了驾驶员信息(包括性别、年龄、户口、职业和驾驶经验)、车辆类型、道路类型、光照条件、天气条件、商业运行条件和时间。一般认为，人口特征是影响车速的重要因素之一。[36]的结果表明，驾驶员的性别、年龄、职业、户籍、驾驶经验是影响我国超速的重要因素。除了关注与人口统计学相关的因素外，一些研究[39]还调查了与车辆和环境相关的其他因素。在我国，车辆类型、道路类型和商业运营条件与车速[36]有显著关系。在环境因素中，光照条件和时间对[36]超速的发生有显著影响。根据Zhang et al.的研究[32]，天气状况与交通违章也有显著的关系。表三列出了每种情况下这些变量的汇总统计数字。

为了评估我们提出的风险寻求和风险厌恶案例模型的预测能力，我们对每个场景进行了留一交叉验证(LOOCV)实验。在LOOCV中，每次迭代选择数据集的一个案例作为目标案例，数据集中除所选案例外的其他案例作为案例库[24]。

C.Logistic Regression Model_逻辑回归模型

为了评估我们提出的基于案例的驾驶员超速行为预测系统，我们还对每个场景进行了广泛应用的逻辑回归模型。对于每一种情况，因变量表示在碰撞中发生超速。本研究中考虑的自变量在之前的研究中已经描述过([32][36][40])，这些自变量来源于同一数据库，包括驾驶员的个人特征、车辆状况、道路类型和环境因素2。将分类截止值设置为0.5，与文献对齐(例如[41][42])。采用ROC曲线进行模型拟合，分别为poorVis GZ场景下的0.739、goodVis GZ场景下的0.824、poorVis SW场景下的0.702和goodVis SW场景下的0.742。预测方法将在下一小节中进行评估，并与我们提出的基于案例的预测模型进行比较。

D.Evaluation Settings_评估设置

我们提出的两种基于案例的预测模型都通过总体准确度、召回率、精确度和F-measure与我们考虑的逻辑回归模型进行了比较。通常，模型的预测性能是通过总体准确度来衡量的，例如，准确分类的超速和非超速的百分比[43]。然而，当要预测不常见事件时，诸如召回率（也称为敏感性和真阳性率）之类的其他指标往往是关键问题[44]。。本研究的重点是预测超速(即，一个罕见的超速)，因此召回被认为比准确性更重要，因为它识别了超速的比例被正确分类。此外，作为准确性和召回率的补充，我们计算了每个预测模型的精度和F-measure。精准度衡量的是被分类为超速案例中有多少是实际超速的百分比。F-measure是precision和recall的加权平均值，F-measure = 2 × recall × precision /(recall + precision)

E.Result_结果

1）逻辑回归与基于案例的预测之间的比较： 表 IV 总结了所有模拟的结果。在所有场景中，我们观察到逻辑回归在预测超速时漏掉了所有真阳性案例（poorVis GZ 场景中有 8 个案例；GZ GoodVis GZ 场景中有 7 个案例；poorVis SW 场景中有 30 个案例；goodVis SW 场景中有 16 个案例）。因此，逻辑回归的召回率为零，没有精度值。在这种情况下，尽管与我们提出的基于案例的预测相比，逻辑回归获得了最高的准确性，但它毫无意义[44]。相比之下，我们提出的基于案例的风险寻求和风险规避预测都通过在所有场景中获得非零召回率和精度值来显示其优点（表四）。考虑到超速事件发生后的严重后果，我们提出的基于案例的预测模型可以通过提前正确识别超速来帮助显着避免负面结果。

·
2）风险寻求和风险规避基于案例的预测之间的比较： 虽然我们提出的风险寻求和风险规避基于案例的预测在poorVis GZ和goodVis GZ场景中的召回措施方面没有显示出任何差异，但它们确实存在差异。当我们查看总体准确度、精度值和 F 度量时，它们彼此不同。在 badVis GZ 和 good-Vis GZ 两种场景中，我们提出的基于风险规避案例的预测比风险寻求预测获得了更高的准确度、更高的精度值和 F 测量值。由于更高的精度意味着预测超速的命中率更高，因此基于案例的风险规避预测模型更适合场景 badVis GZ 和 goodVis GZ（表五和表六）。

·
与场景poorVis GZ和goodVis GZ相比，两种预测模型的性能在场景poorVis SW中表现出明显差异。从表VII中可以看出，虽然我们提出的基于风险寻求案例的预测获得了最高的召回值和F-measure，但我们提出的基于风险规避案例的预测获得了最高的准确度和精确度值。一般来说，精度和召回率是一个权衡，并且通常提高给定预测模型的精度意味着降低召回率。由于F-measure是精度和召回率的加权平均值，因此我们在决定哪种预测模型更适合这种场景时可以合理地参考F-measure。因此，就 F 测度而言，基于案例的风险寻求预测模型更适合badVis SW场景。 GoodVis SW 场景也可以得出类似的结果（见表 VIII）。

·
场景 badVis GZ 和 goodVis GZ 区别于场景 badVis SW 和 goodVis SW 的共同因素包括超速率小（即小于 6%）和城市位置。建议我们提出的风险寻求和风险规避基于案例的预测之间的选择取决于这两个因素。然而，目前尚不清楚不同的性能是由单一因素还是多种因素的组合造成的，因此需要进一步的实证验证。
·
3）敏感性分析： 对于我们提出的基于案例的推理（CBR）模型的敏感性分析，评估了案例库大小的因素。为此，每个场景的数据集被划分为训练集和测试集。测试集中的每个案例连续作为目标案例，训练集中的案例构成案例库。特别地，数据集的90%、70%和50%形成案例库，即分别将数据集的10%、30%和50%用作目标案例。根据这些训练/测试分区，我们提出的 CBR 模型的敏感性通过四个指标进行评估：总体准确性、召回率、精度和 F 指标。
·
图2显示了四个场景中案例库大小对模型性能的影响。从图中可以看出，一方面风险规避案例库预测(RA)的总体准确率始终高于风险寻求案例库预测(RS);在精度度量方面，除了在poorVis SW场景中50:50的训练/测试分区外，RA在几乎所有的情况下都取得了较好的性能。尽管在poorVis GZ和good dvis GZ两个场景中，对于所有的训练/测试分区，RA都有更大的F-measure值，但在good dvis SW场景中，它只在90:10的训练/测试分区中优于RS的F-measure值。

图二。案例库规模对模型性能的影响(RS:我们提出的风险寻求案例预测;RA用于我们提出的风险规避案例预测)
·
通过考虑所有四个指标，随着案例库大小的变化，RA 在 badVis GZ 和 goodVis GZ 的场景中都比 RS 具有更好的整体性能。对于其余场景，RA 和 RS 的整体性能随着案例库大小的变化而变化。

4 Discussion and Conclusion_讨论和结论

本研究提出了一种基于案例的推理（CBR）方法来预测驾驶员的超速行为。给定有关驾驶员、车辆、道路情况和环境条件的目标信息，所提出的 CBR 模型根据类似的过去条件生成目标案例的期望值。检查了一组高度全面的与超速相关的风险因素（总共 11 类），并考虑了预测中的风险寻求和风险规避态度。为了探索使用 CBR 预测超速的可行性，从中国可靠的官方交通事故数据来源中提取了四种场景。这些场景具有一些不同的属性，这有助于确定所提出的模型在不同条件下的表现。使用 CBR 预测超速的优势已通过比逻辑回归（截止值为 0.5）获得的非零（更高）真阳性率和精度得到证明。结果还表明，当案例库大小变化时，在 badVis_GZ 和 goodVis_GZ 场景中，风险规避案例预测的整体性能优于风险寻求案例预测，而在 badVis_SW 和 goodVis_SW 场景中，情况则不同。
·
虽然正在开发中的基于个人和环境交通特征的CBR系统能够在一定程度上识别超速和非超速案件，但在解决本文所涉及的问题上存在一定的局限性。首先，与逻辑回归相比，基于案例的预测准确率不高。这可能是因为在道路安全研究和实践领域中，对相互关系和预期依赖关系的先验知识非常丰富。其次，对我们提出的方法的评估实验并不详尽。第三，由于我们提出的基于案例的预测系统不是在实时数据上运行的，因此没有设计用于标准修改和保留过程的组件。然而，实际的基于案例的推理系统通常有一个“4res”循环(即检索、重用、修改和保留)[45]。
·
为了进一步测试和验证所提出的方法，未来可能的研究方向包括:

为了获得更好的准确性，应使用一种检索和分类的混合算法。另一个重要的问题是案例属性。我们所选择的属性对超速行为很重要，然而，超速的发生也可能是由于尚未被研究的其他条件。此外，每个属性的重要性也可能不同。
我们提出的方法的评价可以在几个方向上扩展，例如，使用更大的数据集，改变案例库中超速率的比例，并与文献中的其他预测模型(如决策树或神经网络)进行比较。
我们提出的系统可以通过增加一个新的修改和保留部分来扩展到处理实时数据。
将调查结果推广到其他情况将是有价值的，例如，包括来自其他国家的数据进行比较。

·
在设计道路交通干预措施以减少超速事故时，司机态度的改变是非常重要的。我们提出的基于案例的系统的一个有前途的应用是，它有助于锁定超速驾驶人群。特别是，我们提出的基于案例的系统可以突出这类超速驾驶人群在各种个人、车辆和环境条件方面的重要特征。具体的对策是将这些突出的特点整合到驾驶教育计划的定制化中，将有效地改善交通安全。此外，我们提出的基于案例的系统可以提供关于超速风险的新信息，与基于与超速相关的历史碰撞记录(即在碰撞中观察到的超速案例)的风险相比，其中包括与超速相关的高潜在道路和环境条件。这些信息可以帮助城市规划者制定速度政策，设置道路限速标志以避免车辆事故。
·
由于广东省的事故数据和所考虑的风险因素具有相当的代表性和综合性，本研究的结果可能会推广到中国其他省份。广东外省移民比例高，机动车保有量居全国各省之首，更增强了其通用性。我们的研究结果可以为各国政府在国家层面上制定交通安全政策提供直接指导，也可以为其他国家未来的道路安全研究提供参考。