【算法】车载测试数据评价方法及论证(持续更新)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

当前ADAS/ADS主要分层如下,本文希望能提供一种车载数据评价体系和方法。希望能跟业内朋友交流讨论。

在这里插入图片描述

1、评价前提

1.1接口要求:

  • 可测量性,接口数据可获取
  • 可计算性,接口数据可计算

1.2被测系统要求:

  • 确定性系统,对于给定的标参和测试操作,系统的接口输出唯一确定,则系统模型可以用函数表示
  • 具备真值,对于被评价数据,需有对应的真值数据作为评价参考
  • 测量结果和真值可匹配

1.3评价指标要求:

  • 有限性,无论系统在何种情况下,对于同一样本,评价指标应在有限的固定范围内,便于横向(不同测试对象,不同次测试)和纵向(不同测试时间)对比
  • 可解释性,评价指标应具备直观的物理含义。
  • 样本脱敏,评价指标不应直接包含或体现样本关键信息,即通过评价指标不可唯一确定样本关键信息。
  • 完整性,通用理解为通过描述可以唯一确定被描述对象,本文中描述对应评价维度,对象为测试结果,即在给定样本关键信息的条件下,对应评价指标应能唯一确定测试结果。因操作和设备具有随机和系统误差,可通过多次测量(即样本关键信息描述M1)基本消除,测量结果函数不考虑相关因素。设样本关键信息矩阵M1,被测对象标定参数矩阵M2,则接口测量结果矩阵R = G(M2),则评价结果矩阵EV = F(M1, R)。完整的评价指标体系,在给定至少一个样本关键特征后,应能唯一确定或能收敛于测量结果R。对黑箱被测对象模型的评价,可认为G不具备关于M2的单调性,因此认为测试结果不能唯一确定M2,其评价完整性在于,评价体系对R元素的全覆盖,并能描述测量结果矩阵R随着M2变化的动态边界即外特性(在样本M1确定的条件下,R-M2关系可体现评价结果矩阵EV-M2关系;若EV = F(M1, R)单调,则可用EV-M2关系替代R-M2关系;R-M2关系具有普适性)。
  • 通用性:要做到横纵向比对,需实现无量纲。量纲意味着有物理信息,一定程度上无法与样本或测试工具解耦。含量纲的评价指标可以给人直观印象,用于限制条件下的直观评价。

1.4数据对象类型:

在整车智能驾驶层面,测试的评价研究对象即目标列表和控制接口。细分层面只要满足可测量和可计算均可作为测量接口。
接口可以概括为数据,数据大类分为布尔、整型、浮点、字符。整型可以视为布尔的集合(整型可以视为任意一数值为正类,其他为负类),即可进一步抽象为布尔、浮点、字符。测试评价的对象为数值型数据,即评价对象为布尔和浮点,同时通讯接口只包含布尔(整型)和浮点,字符可映射为布尔(整型)。
接口数据可升维至布尔/整型的矩阵,作为单独论证。


一、布尔型数据的测试评价

备注:本评价思路来源于图像识别评价。

1、前言

文中检出即为样本全集,检出负类包括常规意义上的未检测到样本,或无效结果。举例:
对于布尔信号存在两种表示方式:
1、数值0/1信号+有效性validity 0/1信号(其他校验种类可抽象为validity)。本方法无视有效性validity 0/1信号。因为当信号无效时,一般零部件级要求数值信号必须为0(假定0为负类),如零部件无此要求,需要做预处理判断,但此种情况下,零部件可能会因为发送不可信有效数据引起非预期失效,存在安全隐患。通常情况下,加有效性校验信号的数据内容均比较重要且影响重大,作为测试方可进行深度评价,如存在安全隐患或重大客户抱怨可拒绝测试通过。
2、集成有效性的-1/0/1信号。本方法将-1/0均视为0(假定0为负类)。原因同上。

2、布尔评价:

2.1基础指标

2.1.1指标内容
  • TP:True Positive,原意为预测为正类,且预测正确,真值为正类。引申为,真值正,检出正。
  • TN:True Negative,原意为预测为负类,且预测正确,真值为负类。引申为,真值负,检出负。
  • FP:False Positive,原意为预测为正类,且预测错误,真值为负类。引申为,真值负,检出正。
  • FN:False Negative,原意为预测为负类,且预测错误,真值为正类。引申为,真值正,检出负。
    上述四类的总集可以涵盖全部被评价范围
2.1.2物理含义
  • 某一时刻,同类多个布尔类型对象实例对应的分类计数值
  • 多个时刻,同类同一布尔类型对象实例对应的分类计数值
  • 多时刻,同类多个布尔类型对象实例对应的分类计数值
  • 对于整型数据,需假定其中某一整数为正类,其他为负类
    在这里插入图片描述
    在这里插入图片描述
    关于运动方向:对于同一样本,每次检出的分布或者不同被测对象检出结果可能产生差异,但真值样本不变,蓝色真值负类样本只能存在于2、4象限,橙色真值正类样本只能存在于1、3象限。因此对于同一真值样本对象,不同测试结果,样本分布存在相对运动。其中橙色运动(x)代表着真值正类在测试结果中的分布差异,正类为我们关心的类别,因此最终评价结果需能确定性体现确定性体现橙色运动(x)和蓝色运动(y)的状态,且x和y占比越小越好。
    定义橙色运动x:相对真值分布,正值为1象限向3象限的运动个数。
    定义蓝色运动y:相对真值分布,正值为4象限向2象限的运动个数。
    定义真值正类总数为X,真值负类总数为Y
  • TP = X - x
  • TN = Y - y
  • FN = x
  • FP = y
2.1.3适用性

不建议直接使用作为评价指标,因为结果带量纲且值与样本数量有关。
以上指标为后续指标计算基础。

2.2复合指标

2.2.1指标内容
  • Precision = TP/(TP+FP) = (X - x)/(Y - x + y) ,%,查准率,检出为正的准确率 。受蓝色样本和橙色样本运动双重影响。蓝色样本的涌出或橙色样本的涌入均可引起查准率上升。可抽象为,Precision = f(x, y, X)。
  • 在这里插入图片描述
  • Recall = TP/(TP+FN) = (X - x)/X,%,查全率,正类的检出率 。唯一物理含义,仅受橙色样本运动影响。RecallP = f(x, X),可以唯一确定x。相应的可以有负类查全率,RecallN = f(y, Y)。
    在这里插入图片描述
  • Accuracy = (TP+TN)/Total = (X - x + Y - y)/(X + Y),正确率,检出结果正确率 。受橙色样本和蓝色样本运动双重影响。Accuracy = f(x, y, X, Y)。
    在这里插入图片描述
    在这里插入图片描述
2.2.1指标推论

基于1中的基础指标,仅有两两结合/全集可以产生有意义集合,因此分母可能性为C42+1 = 7种,分别为

  • TP+TN:全部检出正确
  • TP+FP:全部检出为正
  • TP+FN:全部真值为正
  • TN+FP:全部真值为负
  • TN+FN:全部检出为负
  • FP+FN:全部检出错误
  • Total:全集

评价研究对象为检出正确的对象,即True部分,所以分子的可能性为两种:

  • TP
  • TP+TN

结合上边7种分子,共5种合理组合情况,即分子为分母子集,其中有意义的

  • ①TP/(TP+TN),预测/检出正确的正类比例,暂无评价意义
  • ②TP/(TP+FP),预测/检出正类的正确比例,定义为Precision,如上
  • ③TP/(TP+FN),正类被正确检出的比例,定义为Recall,如上
  • ④TP/Total,所有样本中正确检出的正类的比例,暂无评价意义
  • ⑤(TP+TN)/Total,所有样本中正确检出的比例,定义为Accuracy,如上
2.2.3完整性讨论:

根据以上描述,目前已有三个评价指标:

  • Precision = f(x, y, X)
  • Recall = f(x, X)
  • Accuracy = f(x, y, X, Y)
    对于[x, y, X, Y]中给定任意一变量的值,即可唯一确定其他三个变量,即以上三个指标可以完整描述一组布尔数据对象实例的检出分布。
2.2.4适用性:

适用于布尔类型接口,同一时刻不同实例/不同时刻同一实例/不同时刻不同实例的评价

2.3模型评价指标:

根据上述分析,检出结果的分布变量为x,y,模型的评价及对x,y动态关系的评价,即,EV = f(x, y),进而体现被测对象模型G。x定义域和y值域随样本变化,我们需要找到一种方法实现EV的区间性。在2.2.1中提到的三个指标Precision、Recall(P/N)、Accuracy均为关于x,y,X,Y的函数
1、ROC,Receiver Operating Characteristics
由2.2.1,RecallP = (X-x)/X定义域内单调, RecallN = (Y-y)/Y定义域内单调,实现自变量区间性
EV = ∫ RecallP d(1-RecallN )
即横坐标为1-RecallN,纵坐标为RecallP,评价结果为积分面积AUC(area under curve)。体现了假正率提高具有一定的边际效应。
在这里插入图片描述

2、借鉴AP,Average Precision。
由2.2.1,RecallP = (X-x)/X定义域内单调,Precision = TP/(TP+FP) = (X - x)/(Y - x + y) = (1-RecallP)/(1-RecallP+y/X),y和x解耦即y和RecallP解耦的情况下,RecallP定义域内关于单调。
即横坐标为RecallN,纵坐标为RecallP,评价结果为曲线下方积分面积AUC。下方为理想被测模型,x = y2,即每有一个正类样本流入第三象限,就会有根号x个负类样本流入第二象限(非解耦)

import numpy as np
import matplotlib.pyplot as plt
varX = 500
varx = np.arange(0, 500, 1)
varY = 500
limy = np.array([500] * 500)
vary = np.sqrt(varx)
np.putmask(vary, vary >= limy, limy)
x = (varX - varx) / varX
y = (1 - x)/(1 - x + vary/varX)
plt.subplot(111)
plt.xlim((0, 1))
plt.ylim((0, 1))
plt.plot(x, y)
plt.show()

在这里插入图片描述
以上两种评价指标均从侧面体现了x和y的关系,且指标合理区间为[0, 1],取其一即可。ROC更加直观,AP除了侧面体现流动关系外,还可直观体现Precision随流动的变化,按需求使用。当然也可以做Accuracy-Recall图,可直观体现Accuracy随流动的变化。

2.4布尔评价小结:

针对只有0、1的布尔信号,评价指标如下:

指标种类数实例数时长物理含义
Precision1任意任意查准率,检出为正的准确率
Recall(P/N)1任意任意查全率,真值正类检出率
Accuracy1任意任意正确率,检出结果正确率
AP1任意任意平均精度,查准率随查全率的变化,表征模型平均查全能力。在y和x解耦的情况下,可描述测量结果R随模型标参M2的变化。结果极限跟样本分布有关。
ROC1任意任意分类特性,正类查全率随负类查全率的变化,表征模型正负类检出的相互影响或表征分类能力。可描述测量结果R随模型标参M2的变化。结果极限跟样本分布无关。

2.5整型评价指标 - 待完善:

结合布尔和浮点思路,TBD

二、浮点数据的测试评价 - 待完善

1.前言

对于浮点型数据,数据实例集合无穷大,可以从统计的角度出发,通过评价指标,确定R的分布特征,并对R-M2的关系边界进行描述。
对于任意一个浮点型数据集,其误差分布是未知的,分布特征不固定,所以无法用同一套分布特征参数确定分布情况。
问题转化1:误差分布概率的包络线可以用函数表示,p = f(s),其中p为possibility,s为step。分布特征的唯一描述方法转化为分布概率包络线的唯一描述方法,即如何唯一性描述一个未知的定义域[0,1]值域[0,1]的平面函数曲线。
问题转化2:跟已知的分布进行匹配,根据匹配结果利用对应的分布参数进行描述。可行,但评价维度对不同的数据不统一。
问题转换3:根据测量值拟合线和真值线允许带宽,转化为布尔数值问题

三、矩阵数据的测试评价 - 待完善

思路:开发通用型代价函数

四、整车开发测试评价体系 - 待完善

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值