欺诈与异常检测

目录

可疑与异常行为检测

未知的未知

可疑模式检测

异常模式检测

分析类型

模式分析

事务分析

规划识别


异常检测(outlier detection)用于识别异常、罕见事件或其他反常情况。查找这样的异常就 像大海捞针,但它们可能招致令人相当震惊的后果,比如信用卡欺诈检测、网络入侵识别、制造 工艺缺陷、临床试验、投票活动、电子商务犯罪。因此,及时发现这些异常可能避免巨大损失。 应用机器学习检测异常问题会带来新的发现,并且能够得到更好的异常事件检测效果。机器学习 能够考虑许多不同的数据来源,并找到人类分析时难以发现的关系。

以电子商务欺诈检测为例,通过适当应用机器学习算法,进行欺诈检测时,我们可以把购物 者的在线行为(即网站浏览历史)列入欺诈检测算法的考察对象,这样判断时考虑的因素更全面, 而不只是简单地考虑持卡者的购物历史。这包括分析各种数据源,对电子商务欺诈检测而言,它 还是一种更加稳健的方法。
本章涵盖如下主题:
 问题与挑战

 可疑模式检测

 异常模式检测

 使用不平衡数据集

 时序中的异常检测

可疑与异常行为检测

从传感器数据学习模式的问题会出现在许多应用场合,包括电子商务、智能环境、视频监控、 网络分析、人机交互、环境辅助智能系统等。我们的重点是检测那些有悖于常规行为的模式,它 们可能是安全风险、健康问题或者其他任何异常行为偶发事件。

换言之,异常行为是一种数据模式,它要么与期望的行为不符(异常行为),要么是一个先 前定义的不希望发生的行为(可疑行为)。异常行为模式包括异常值(outlier)、异常(exception)、 特性(peculiarity)、意外(surprise)、滥用(misuse)等。相对而言,这些模式并不会经常出现, 但确实在某些时候会出现,有可能产生令人吃惊的后果,并且这些后果一般都是负面的。典型的例子有信用卡欺诈检测、网络入侵、工业破坏。电子商务中,欺诈给商人造成的损失每年超过200 亿美元;在医疗保健领域,欺诈每年耗掉纳税人60亿美元的税费;在银行领域,欺诈造成的损失 超过12亿美元。

未知的未知

2002年2月12日,时任美国国防部长唐纳德·拉姆斯菲尔德在召开的新闻发布会上称,没有 证据表明伊拉克政府向恐怖分子提供了大规模杀伤性武器。这立刻引发了人们的热议。拉姆斯菲 尔德声称(DoD News,2012):

“那些对还未发生的事所做的报道总能引起我们的兴趣,正如我们知道,有些事情 大家都知道(known knowns),即有些事情我们知道我们知道。我们也都知道有些事情我们不知道(known unknowns),那就是说,我们知道有些事情我们不知道。但也有些事情我们都不知道(unknown unknowns),就是那些我们不知道我们不知道的事情。纵 观我们国家与其他自由国家的历史可以发现,后面那些往往是最难的。

乍看上去,这段声明可能有点绕,但是“未知的未知”(unknown unknowns)这个想法在处 理风险的专家、NSA和其他情报机构中得到深入研究。上面这段声明基本意思如下。

 已知的已知(Known-knowns):这些问题已为我们所熟知,我们知道如何辨认它们,也 知道如何处理它们。

 已知的未知(Knownunknowns):这些问题可以预料或预见到,我们可以做出合理预测, 但是它们之前从未发生过。

 未知的未知(Unknown-unknowns):这些问题是不可预料的,也无法预见,我们不能根 据以往经验做预测,它们将我们置于重大风险之中。

接下来,我们将学习两种处理前两种已知与未知的基本方法:可疑模式检测(处理已知的已 知)与异常模式检测(处理已知的未知)。

可疑模式检测

第一种方法假设有一个行为库,它对图7-1中用减号表示的负模式(negative pattern)进行编 码。这样,识别被观察行为就转换成从库中找出一个对应的匹配。如果发现一个新模式(圆圈) 与负模式不匹配,那么就把这个新模式看作是可疑的。

比如,你生病看医生时,针对病情,她会检查各种症状(体温、疼痛程度、影响范围等), 然后将这些症状与已知的疾病进行匹配。使用机器学习的术语来说就是,医生收集属性,并做分 类处理。

这个方法的优点在于,我们可以立刻知道问题是什么。假如我们了解那种疾病,就能给出合 适的治疗方法。

这个方法的主要缺点是,它只能检测到那些我们事先已经知道的可疑模式。如果一个模式在 负模式库(negative pattern library)中不存在,那么将无法识别。因此,这个方法适合为那些“已 知的已知”建模。

异常模式检测

第二个方法是以相反的方式使用模式库,即模式库只对正模式(图7-2中的加号)做编码。 当一个被观察的行为(圆圈)与模式库中的所有模式都不匹配时,就会被视作异常。

这个方法只需要我们为过去所见建模,即为那些正常模式(normal patterns)建模。回到看 病的例子,我们之所以去看医生主要是因为感觉自己身体不舒服。生病时的感觉(比如头痛、疼 痛)与平时的感觉不一样,所以我们才决定去看医生。我们不知道什么疾病引起了这些症状,也 不知道该如何治疗,但我们能明显感觉到这与平时的感觉完全不一样。

这个方法的主要优点是,它不需要我们提及非正常模式(non-normal patterns),因此很适合 用来为“已知的未知”与“未知的未知”建模。另一方面,这个方法不能准确指出问题是什么。

分析类型

不管怎样,我们有多种方法可以进行类型分析。如下3种类型(模式分析、事务分析、规划 识别)中,我们会对异常与可疑行为检测做大致分类。接下来,我们将快速了解一些实际生活中的应用程序。

模式分析

基于视觉方式(比如摄像机),根据行为模式做异常与可疑行为检测是一个在计算视觉研究 中相对活跃的领域。2007年,Zhang等人提出了一个系统,根据视频序列做人体运动视觉分析, 它可以根据步态轨迹识别异常行为;2009年,Lin等人描述了一个基于颜色特征、距离特征、计 数特征的视频监控系统,使用演化技术度量观察的相似性。该系统追踪每个人,分析他们的轨迹 模式,进而对其行为进行分类。这个系统会从图像的不同部分抽取一组低层视觉特征,使用SVM 算法进行分类,以检测用户的攻击、快乐、醉酒、焦虑、中立、疲倦行为。

事务分析

不同于连续观察,事务分析关注的是离散状态与事务,主要研究领域是入侵检测(ID),一 般目标是检测那些攻击信息系统的入侵行为。ID系统主要分为两种类型,一种是基于特征的 (signature-based),另一种是基于异常的(anomaly-based)。如前所述,它主要应用于可疑与异常 模式检测。如果想进一步了解有关ID的内容,建议阅读Gyanchandani等人2012年合写的图书。

而且,环境辅助智能系统中,基于可穿戴传感器的应用也适应于事务分析,因为感知通常是 基于事件的。2008年,Lymberopoulos等人提出了一个从用户家中设置的传感器网络自动提取用 户时序斑图( spatio-temporal patterns)的系统,这些时序斑图被编码成传感器触发( sensor activations)。他们提出的方法基于位置、时间、持续时间,能够使用Apriori算法提取频繁模式, 并且将最频繁的模式编码为马尔可夫链。另一个相关领域是隐马尔可夫模型(Hidden Markov Models,HMM,Rabiner,1989),它对行为序列建模,广泛应用于习惯行为识别。这些内容已 经超出本书讨论的范围,不再详述。

规划识别

规划识别主要关注于识别智能体不可观测状态的机制,前提是给出其与环境交互的观察结果 (AvrahamiZilberbrand,2009)。大部分现存的调查研究都认为,行为的观察结果是离散的。为了 进行异常与可疑行为检测,规划识别算法可能使用混合方法:符号规划识别器可以用于筛选一致 的假设,将其传递给一个注重排名的评价引擎。 这些先进方法被应用于各种真实生活场景,以发现异常。接下来,我们将学习更多用于检测 可疑与异常模式的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

顾北辰20

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值