下表总结了机器学习在常见场景下使用的评估指标:
(PS:原文档包含截图,已上传到个人资源)
类别 | 场景 | 场景描述 | 应用场景 | 指标说明 | |||||
图像 | 图像分类 | 识别一张图中是否是某类物体/状态/场景,适用于图片内容单一、需要给整张图片分类的场景 | 1、图片内容检索:定制训练需要识别的各种物体,并结合业务信息展现更丰富识别结果 2、图片审核:定制图像审核规则,如训练直播场景中抽烟等违规现象 3、制造业分拣或质检:定制生产线上各种产品识别,进而实现自动分拣或者质检 4、医疗诊断:定制识别医疗图像,辅助医生肉眼诊断 | 准确率(正确分类的样本数与总样本数之比) | 精确率(对某类别而言为正确预测为该类别的样本数与预测为该类别的总样本数之比,此处为各类别精确率的平均数) | 召回率(对某类别而言为正确预测为该类别的样本数与该类别的总样本数之比,此处为各类别召回率的平均数) | F1-score(对某类别而言为精确率和召回率的调和平均数,此处为各类别F1-score的平均数) | 不同分类的F1-score(如果不同分类的F1-score存在差异很大的情况下,整体模型效果有被低精度的分类效果拉低的可能。建议检查训练数据中不同标签的目标数情况,建议不同分类的目标数尽可能均衡。) | top1-top5准确率(对于每一个评估的图片文件,模型会给根据置信度高低,依次给出top1-top5的识别结果,其中top1置信度最高,top5的置信度最低。那么top1的准确率值是指对于评估标准为“top1结果识别为正确时,判定为正确”给出准确率。top2准确率值是指对于评估标准为“top1或者top2只要有一个命中正确的结果,即判定为正确”给出的准确率。……以此类推。) |
物体检测 | 可以检测出图片里面的所有目标物体名称、位置。适用于一张图片中要识别多个物体,物体计数等场景中。 | 1、视频监控:如检测是否有违规物体、行为出现 2、工业质检:如检测图片里微小瑕疵的数量和位置 3、医疗诊断:如医疗细胞计数、中草药识别等 | mAP(mAP(mean average precision)是物体检测(Object Detection)算法中衡量算法效果的指标。对于物体检测任务,每一类object都可以计算出其精确率(Precision)和召回率(Recall),在不同阈值下多次计算/试验,每个类都可以得到一条P-R曲线,曲线下的面积就是average) | 精确率(经比较F1-score最高的阈值0.2下的结果。精确率为该阈值下正确预测的物体数与预测物体总数之比) | 召回率(经比较F1-score最高的阈值0.2下的结果。召回率为该阈值下正确预测的物体数与真实物体数之比) | 不同阈值下的F1-score | 不同标签的平均精度(通过查看不同标签的平均精度可以有效观测不同标签的精度对比。如果存在精度差异很大的情况下,整体模型效果有被低精度的标签效果拉低的可能。建议检查训练数据中不同标签的目标数情况,建议不同标签的目标数尽可能均衡。) | 不同标签的mAP | |
图像分割 | 在图中包含多个目标时,识别每个目标的名称、位置(像素级),按目标名称计数。适合图中有多个目标、需用多边形标注或需识别目标轮廓的场景。 | 1、专业检测:应用于专业场景的图像分析,比如在卫星图像中识别建筑、道路、森林,或在医学图像中定位病灶、测量面积等 2、智能交通:识别道路信息,包括车道标记、交通标志等 | mAP | 精确率 | 召回率 | 不同阈值下的F1-score | 不同标签的平均精度 | 不同标签的mAP | |
文本 | 文本分类 | 基于自建分类体系的机器学习方法,可实现文本自动分类。 | 1、投诉信息分类:训练客服投诉信息的自动分类,将每个用户投诉的内容进行分类管理,节省大量客服人力 2、媒体文章分类:训练网络媒体文章的自动分类,进而实现各类文章的自动分类 3、文本审核:定制训练文本审核的模型,如训练文本中是否含有违规/偏激性质的描述 4、其他:尽情脑洞大开,训练你希望实现的文本分类模型 | 准确率 | 精确率 | 召回率 | F1-score | 不同分类的F1-score | top1-top5准确率 |
短文本匹配 | 可判断两段短文本的相似度 | 在客服问答场景中,通过训练短文本匹配的模型,能够快速识别出知识库中与用户问题相似的相关问题,并推荐出相应的答案,快速提升客服问答效率 | 准确率 | 精确率 | 召回率 | F1-score | 各分类的F1-score/各分类的精确值/各分类的召回率 | ||
序列标注 | 通过定制标签,实现对一串文本中的每个序列单元进行分类标注。能够实现分词,词性标注,命名实体识别,关键词抽取,词义角色标注等应用功能 | 可以用于金融场景、医疗场景等的关键信息抽取,或者对对话的关键词槽的识别应用 | 精确率 | 召回率 | F1-score | ||||
视频 | 视频分类 | 可以分析视频的内容,识别出视频内人体做的是什么动作,物体/环境发生了什么变化。 | 1、人体动作监控:定制监控人体特殊动作,比如特殊手势,工地/后厨人员行为等 2、环境变化监控:定制监控环境变化,比如山体塌方,泥石流等 3、视频内容分析:快速分析视频内容,可用于短视频APP和直播平台中 4、物体状态变化监控:定制识别特定物体的移动方向、形态变化等 | 准确率 | 精确率 | 召回率 | F1-score | 不同分类的F1-score | top1-top5准确率 |
声音 | 声音分类 | 可以定制识别出当前音频是哪种声音,或者是什么状态/场景的声音 | 1、安防监控:定制识别不同的异常或正常的声音,进而用于突发状况预警。比如监控在工业生产场景中监控是否出现了异常噪音,从而辅助人工测试的时候判断是否出现bug。 2、科学研究:定制识别同一物种的不同个体的声音、或者不同物种的声音,协助野外作业研究。比如动物研究机构从野外采集的声音,借助于EasyDL声音分类模型,判断当前音频属于什么物种。 | 准确率 | 精确率 | 召回率 | F1-score | 不同分类的F1-score | top1-top5准确率 |