【算法】车载测试数据评价方法及论证（持续更新）

最新推荐文章于 2023-10-05 20:23:11 发布

winnizap

最新推荐文章于 2023-10-05 20:23:11 发布

阅读量595

点赞数

分类专栏：【算法】

本文链接：https://blog.csdn.net/winnizap/article/details/117824798

版权

【算法】专栏收录该内容

4 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

当前ADAS/ADS主要分层如下，本文希望能提供一种车载数据评价体系和方法。希望能跟业内朋友交流讨论。

在这里插入图片描述

1、评价前提

1.1接口要求：

可测量性，接口数据可获取
可计算性，接口数据可计算

1.2被测系统要求：

确定性系统，对于给定的标参和测试操作，系统的接口输出唯一确定，则系统模型可以用函数表示
具备真值，对于被评价数据，需有对应的真值数据作为评价参考
测量结果和真值可匹配

1.3评价指标要求：

有限性，无论系统在何种情况下，对于同一样本，评价指标应在有限的固定范围内，便于横向(不同测试对象，不同次测试)和纵向(不同测试时间)对比
可解释性，评价指标应具备直观的物理含义。
样本脱敏，评价指标不应直接包含或体现样本关键信息，即通过评价指标不可唯一确定样本关键信息。
完整性，通用理解为通过描述可以唯一确定被描述对象，本文中描述对应评价维度，对象为测试结果，即在给定样本关键信息的条件下，对应评价指标应能唯一确定测试结果。因操作和设备具有随机和系统误差，可通过多次测量(即样本关键信息描述M1)基本消除，测量结果函数不考虑相关因素。设样本关键信息矩阵M1，被测对象标定参数矩阵M2，则接口测量结果矩阵R = G(M2)，则评价结果矩阵EV = F(M1, R)。完整的评价指标体系，在给定至少一个样本关键特征后，应能唯一确定或能收敛于测量结果R。对黑箱被测对象模型的评价，可认为G不具备关于M2的单调性，因此认为测试结果不能唯一确定M2，其评价完整性在于，评价体系对R元素的全覆盖，并能描述测量结果矩阵R随着M2变化的动态边界即外特性(在样本M1确定的条件下，R-M2关系可体现评价结果矩阵EV-M2关系；若EV = F(M1, R)单调，则可用EV-M2关系替代R-M2关系；R-M2关系具有普适性)。
通用性：要做到横纵向比对，需实现无量纲。量纲意味着有物理信息，一定程度上无法与样本或测试工具解耦。含量纲的评价指标可以给人直观印象，用于限制条件下的直观评价。

1.4数据对象类型：

在整车智能驾驶层面，测试的评价研究对象即目标列表和控制接口。细分层面只要满足可测量和可计算均可作为测量接口。
接口可以概括为数据，数据大类分为布尔、整型、浮点、字符。整型可以视为布尔的集合（整型可以视为任意一数值为正类，其他为负类），即可进一步抽象为布尔、浮点、字符。测试评价的对象为数值型数据，即评价对象为布尔和浮点，同时通讯接口只包含布尔（整型）和浮点，字符可映射为布尔（整型）。
接口数据可升维至布尔/整型的矩阵，作为单独论证。

一、布尔型数据的测试评价

备注：本评价思路来源于图像识别评价。

1、前言

文中检出即为样本全集，检出负类包括常规意义上的未检测到样本，或无效结果。举例：
对于布尔信号存在两种表示方式：
1、数值0/1信号+有效性validity 0/1信号（其他校验种类可抽象为validity）。本方法无视有效性validity 0/1信号。因为当信号无效时，一般零部件级要求数值信号必须为0（假定0为负类），如零部件无此要求，需要做预处理判断，但此种情况下，零部件可能会因为发送不可信有效数据引起非预期失效，存在安全隐患。通常情况下，加有效性校验信号的数据内容均比较重要且影响重大，作为测试方可进行深度评价，如存在安全隐患或重大客户抱怨可拒绝测试通过。
2、集成有效性的-1/0/1信号。本方法将-1/0均视为0（假定0为负类）。原因同上。

2、布尔评价：

2.1基础指标

2.1.1指标内容

TP：True Positive，原意为预测为正类，且预测正确，真值为正类。引申为，真值正，检出正。
TN：True Negative，原意为预测为负类，且预测正确，真值为负类。引申为，真值负，检出负。
FP：False Positive，原意为预测为正类，且预测错误，真值为负类。引申为，真值负，检出正。
FN：False Negative，原意为预测为负类，且预测错误，真值为正类。引申为，真值正，检出负。
上述四类的总集可以涵盖全部被评价范围

2.1.2物理含义

某一时刻，同类多个布尔类型对象实例对应的分类计数值
多个时刻，同类同一布尔类型对象实例对应的分类计数值
多时刻，同类多个布尔类型对象实例对应的分类计数值
对于整型数据，需假定其中某一整数为正类，其他为负类

关于运动方向：对于同一样本，每次检出的分布或者不同被测对象检出结果可能产生差异，但真值样本不变，蓝色真值负类样本只能存在于2、4象限，橙色真值正类样本只能存在于1、3象限。因此对于同一真值样本对象，不同测试结果，样本分布存在相对运动。其中橙色运动（x）代表着真值正类在测试结果中的分布差异，正类为我们关心的类别，因此最终评价结果需能确定性体现确定性体现橙色运动（x）和蓝色运动（y）的状态，且x和y占比越小越好。
定义橙色运动x：相对真值分布，正值为1象限向3象限的运动个数。
定义蓝色运动y：相对真值分布，正值为4象限向2象限的运动个数。
定义真值正类总数为X，真值负类总数为Y
则
TP = X - x
TN = Y - y
FN = x
FP = y

2.1.3适用性

不建议直接使用作为评价指标，因为结果带量纲且值与样本数量有关。
以上指标为后续指标计算基础。

2.2复合指标

2.2.1指标内容

Precision = TP/(TP+FP) = (X - x)/(Y - x + y) ，%，查准率，检出为正的准确率。受蓝色样本和橙色样本运动双重影响。蓝色样本的涌出或橙色样本的涌入均可引起查准率上升。可抽象为，Precision = f(x, y, X)。
Recall = TP/(TP+FN) = (X - x)/X，%，查全率，正类的检出率。唯一物理含义，仅受橙色样本运动影响。RecallP = f(x, X)，可以唯一确定x。相应的可以有负类查全率，RecallN = f(y, Y)。
Accuracy = (TP+TN)/Total = (X - x + Y - y)/(X + Y)，正确率，检出结果正确率。受橙色样本和蓝色样本运动双重影响。Accuracy = f(x, y, X, Y)。

2.2.1指标推论

基于1中的基础指标，仅有两两结合/全集可以产生有意义集合，因此分母可能性为C42+1 = 7种，分别为

TP+TN：全部检出正确
TP+FP：全部检出为正
TP+FN：全部真值为正
TN+FP：全部真值为负
TN+FN：全部检出为负
FP+FN：全部检出错误
Total：全集

评价研究对象为检出正确的对象，即True部分，所以分子的可能性为两种：

TP
TP+TN

结合上边7种分子，共5种合理组合情况，即分子为分母子集，其中有意义的

①TP/(TP+TN)，预测/检出正确的正类比例，暂无评价意义
②TP/(TP+FP)，预测/检出正类的正确比例，定义为Precision，如上
③TP/(TP+FN)，正类被正确检出的比例，定义为Recall，如上
④TP/Total，所有样本中正确检出的正类的比例，暂无评价意义
⑤(TP+TN)/Total，所有样本中正确检出的比例，定义为Accuracy，如上

2.2.3完整性讨论：

根据以上描述，目前已有三个评价指标：

Precision = f(x, y, X)
Recall = f(x, X)
Accuracy = f(x, y, X, Y)
对于[x, y, X, Y]中给定任意一变量的值，即可唯一确定其他三个变量，即以上三个指标可以完整描述一组布尔数据对象实例的检出分布。

2.2.4适用性：

适用于布尔类型接口，同一时刻不同实例/不同时刻同一实例/不同时刻不同实例的评价

2.3模型评价指标：

根据上述分析，检出结果的分布变量为x,y，模型的评价及对x,y动态关系的评价，即，EV = f(x, y)，进而体现被测对象模型G。x定义域和y值域随样本变化，我们需要找到一种方法实现EV的区间性。在2.2.1中提到的三个指标Precision、Recall(P/N)、Accuracy均为关于x,y,X,Y的函数
1、ROC，Receiver Operating Characteristics
由2.2.1，RecallP = (X-x)/X定义域内单调, RecallN = (Y-y)/Y定义域内单调，实现自变量区间性
EV = ∫ RecallP d（1-RecallN ）
即横坐标为1-RecallN，纵坐标为RecallP，评价结果为积分面积AUC(area under curve)。体现了假正率提高具有一定的边际效应。
在这里插入图片描述

2、借鉴AP，Average Precision。
由2.2.1，RecallP = (X-x)/X定义域内单调，Precision = TP/(TP+FP) = (X - x)/(Y - x + y) = (1-RecallP)/(1-RecallP+y/X)，y和x解耦即y和RecallP解耦的情况下，RecallP定义域内关于单调。
即横坐标为RecallN，纵坐标为RecallP，评价结果为曲线下方积分面积AUC。下方为理想被测模型，x = y2，即每有一个正类样本流入第三象限，就会有根号x个负类样本流入第二象限（非解耦）

import numpy as np
import matplotlib.pyplot as plt
varX = 500
varx = np.arange(0, 500, 1)
varY = 500
limy = np.array([500] * 500)
vary = np.sqrt(varx)
np.putmask(vary, vary >= limy, limy)
x = (varX - varx) / varX
y = (1 - x)/(1 - x + vary/varX)
plt.subplot(111)
plt.xlim((0, 1))
plt.ylim((0, 1))
plt.plot(x, y)
plt.show()

在这里插入图片描述
以上两种评价指标均从侧面体现了x和y的关系，且指标合理区间为[0, 1]，取其一即可。ROC更加直观，AP除了侧面体现流动关系外，还可直观体现Precision随流动的变化，按需求使用。当然也可以做Accuracy-Recall图，可直观体现Accuracy随流动的变化。

2.4布尔评价小结：

针对只有0、1的布尔信号，评价指标如下：

指标	种类数	实例数	时长	物理含义
Precision	1	任意	任意	查准率，检出为正的准确率
Recall(P/N)	1	任意	任意	查全率，真值正类检出率
Accuracy	1	任意	任意	正确率，检出结果正确率
AP	1	任意	任意	平均精度，查准率随查全率的变化，表征模型平均查全能力。在y和x解耦的情况下，可描述测量结果R随模型标参M2的变化。结果极限跟样本分布有关。
ROC	1	任意	任意	分类特性，正类查全率随负类查全率的变化，表征模型正负类检出的相互影响或表征分类能力。可描述测量结果R随模型标参M2的变化。结果极限跟样本分布无关。

2.5整型评价指标 - 待完善：

结合布尔和浮点思路，TBD

二、浮点数据的测试评价 - 待完善

1.前言

对于浮点型数据，数据实例集合无穷大，可以从统计的角度出发，通过评价指标，确定R的分布特征，并对R-M2的关系边界进行描述。
对于任意一个浮点型数据集，其误差分布是未知的，分布特征不固定，所以无法用同一套分布特征参数确定分布情况。
问题转化1：误差分布概率的包络线可以用函数表示，p = f(s)，其中p为possibility，s为step。分布特征的唯一描述方法转化为分布概率包络线的唯一描述方法，即如何唯一性描述一个未知的定义域[0,1]值域[0,1]的平面函数曲线。
问题转化2：跟已知的分布进行匹配，根据匹配结果利用对应的分布参数进行描述。可行，但评价维度对不同的数据不统一。
问题转换3：根据测量值拟合线和真值线允许带宽，转化为布尔数值问题

三、矩阵数据的测试评价 - 待完善

思路：开发通用型代价函数

四、整车开发测试评价体系 - 待完善

winnizap

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【算法】车载测试数据评价方法及论证（持续更新）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码
复制链接

扫一扫

专栏目录