基于 Isolation Forest 未决案件异常检测结果展示

本文介绍了通过孤立森林算法对未决案件进行异常检测,发现异常数据主要特征包括高滞留周期和估损金额。异常数据在责任、车型和滞留环节上存在显著差异,如党政机关客车和非营业货车异常率高,诉讼等环节异常率超过70%。建议结合实际案例深入分析这些特征,以提高清理效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

前言

一、检测结果展示

二、异常数据特征可视化

1.周期与金额比较

         2.结合责任对比

         3.结合车型分析

         4.结合滞留环节分析

总结


前言

未决案件从某种程度上也可以算是无监督数据(因为没有历史标记),通过非监督式方法实现的异常检测可以缩小排查范围,提供更加精准和高效的执行目标。

Isolation Forest (孤立森林):一种与随机森林类似,高效的集成算法。基本原理是异常样本相对于正常样本可以用较少的特征划分出来,本例就是想通过该算法将纯车物未决案件异常样本标记出来,研究其特征,提供一些新的思路。

本例主要是对类别为异常的数据进行特征分析展示,算法实现过程就省略了。


一、检测结果展示

数据量:5018,  标记为异常的数据:765, 异常数据占比:15.2%,部分整合后数据展示如下:

‘-1’表示模型识别为异常数据

二、异常数据特征可视化

1.周期与金额比较

 异常数据相比正常数据,平均滞留周期及平均估损金额都较高

2.结合责任对比

 重点关注高于均值的部分

3.结合车型分析

 从上表得出案件数最多的不一定是异常率最高的,下面结合Axes3D图及矩阵图展示分析

 矩阵图说明:横轴是案件量、纵轴是平均滞留周期,圆圈大小是平均估损金额。

结合Axes3D图及矩阵图可以看出:党政机关客车及非营业货车异常率较高,异常率超过40%,且党政机关客车的平均滞留周期很高,处在矩阵图第二象限,且该车型都是公司车辆,是否存在手续方面的问题导致周期很高,这个可以结合原始数据具体案件具体分析。营业货车是唯一处在第一象限的,即数量及周期都高于平均数,金额也不小,且该车型基本都是挂靠,是否也是手续、配件等方面的问题,可以结合数据个案分析。

4.结合滞留环节分析

说明:柱图表示滞留周期,折线表示案件量

矩阵图坐标轴与车型矩阵图一致

滞留环节方面:诉讼、退票、重开/补赔申请3个环节的异常率都超过70%,同时未调度环节滞留周期超高、估损金额也不低,单证及其他这两个处在第一象限的环节,件数及滞留周期都超过平均值,上述这些环节都可以结合原始数据重点分析原因。


总结

1. 结合上述图标可以看出,滞留周期及估损金额是异常案件区别于正常案件的主要特征。

2.由于未决形成的原因是多方面的,以上仅展示了几个不同维度下的情况,还有很多维度可以挖掘,就不一一展示,由于异常案件是由算法识别,具体到个案分析,‘异常案件’并不一定就是异常,还需要结合实际经验及案情判断。结合算法识别后的数据特征,可以从特征出发,具体分析,对症下药,提升清理的效率,减少盲清。

3. 对于无监督类的数据,聚类也是一种区分的好方法,下一篇再分享了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值