异常检测
文章平均质量分 96
异常检测
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
基于不平衡学习和图神经网络的金融交易欺诈检测器 Financial transaction fraud detector based on imbalance learning and graph n
类别不平衡图神经网络欺诈检测同质性异质性欺诈检测是金融领域中一项重要且具有挑战性的任务。传统的机器学习方法在处理交易数据的高度不平衡和复杂性以及欺诈实体的隐秘行为方面存在局限性。为了解决这些问题,我们提出了一种基于图神经网络的欺诈检测模型 HHLN-GNN,利用子图生成器和邻域采样器来处理类别不平衡。此外,该模型采用自注意模块,并区分同质性和异质性连接,以减少欺诈节点的人为性并更充分地利用交易数据的隐藏信息。我们在三个真实世界公开基准数据集 YelpChi、Amazon 和 Elliptic 上进行实验,并原创 2024-04-08 16:10:15 · 954 阅读 · 0 评论 -
金融欺诈:异常检测技术及最新进展综述Financial Fraud: A Review of Anomaly Detection Techniques and Recent Advances
随着技术的发展和现代社会持续的经济增长,金融行业中的欺诈行为变得更加普遍,每年给机构和消费者造成数百亿美元的损失。欺诈者不断改进他们的手法,以利用当前防范措施的漏洞,其中许多人瞄准了金融领域。这些犯罪行为包括信用卡欺诈、医疗和汽车保险欺诈、洗钱、证券和商品欺诈以及内幕交易。单独使用欺诈预防系统无法提供足够的安全防范来抵御这些犯罪行为。因此,检测系统对于在犯罪行为发生后检测到欺诈行为以及潜在的成本节约更加明显。原创 2024-04-07 13:16:29 · 1172 阅读 · 0 评论 -
深度学习在时间序列数据异常检测中的应用:回顾、分析和指南 Deep Learning for Anomaly Detection in Time-Series Data: Review, Analys
随着工业自动化和连接技术的发展,各种系统持续产生大量数据。已经提出许多方法,从海量数据中提取主要指标以代表整个系统状态。利用这些指标在时间上检测异常可以预防潜在事故和经济损失。在多变量时间序列数据中检测异常具有特殊挑战,因为它需要同时考虑时间依赖性和变量之间的关系。最近基于深度学习的工作在这一领域取得了令人瞩目的进展。它们能够以无监督的方式学习大规模序列的表示,并从数据中识别异常。然而,大多数方法对于个别用例非常具体,因此需要领域知识来进行适当部署。原创 2024-04-07 13:12:56 · 886 阅读 · 0 评论 -
用于时间序列异常检测的深度学习:一项调查 Deep Learning for Time Series Anomaly Detection: A Survey
时间序列异常检测对于许多研究领域和应用至关重要,包括制造业和医疗保健。异常的存在可能表明新颖或意外事件,如生产故障、系统缺陷、心跳异常等,因此具有特殊的重要性。时间序列数据中的大规模和复杂模式促使研究人员开发了专门的深度学习模型来检测异常模式。本调查对时间序列异常检测的深度学习最新技术进行了结构化和全面的概述。它提供了基于异常检测策略和深度学习模型的分类法。除了描述每个类别中的基本异常检测技术外,还讨论了它们的优势和局限性。此外,本研究还包括了近年来各个应用领域中时间序列深度异常检测的示例。最后,总结了在将原创 2024-04-07 13:09:12 · 677 阅读 · 0 评论 -
在颠覆性技术时代的信用卡欺诈检测:系统性综述 Credit card fraud detection in the era of disruptive technologies: A systemat
随着创新技术和通信方法的出现,如非接触支付,信用卡欺诈正变得日益严重且普遍。本文对2015年至2021年间进行的有关检测和预测信用卡欺诈交易的前沿研究进行了深入审查。我们选择了40篇相关文章,并根据涉及的主题(类别不平衡问题、特征工程等)和使用的机器学习技术(建模传统和深度学习)对其进行了分类。我们的研究显示,迄今对深度学习的调查有限,揭示了需要更多研究来解决通过新技术(如大数据分析、大规模机器学习和云计算)检测信用卡欺诈所面临的挑战。原创 2024-04-07 13:08:09 · 1502 阅读 · 0 评论 -
基于图的大规模欺诈检测系统 A graph‑powered large‑scale fraud detection system
图驱动的欺诈检测在各个领域中都是一个常见问题,如电子商务、银行、保险和社交网络,这些领域的数据可以自然地表示为图结构。特别是在电子商务领域,由于其庞大规模和数以百万计商品的实时交易量,欺诈检测已经成为一个重要且严重的问题。挑战主要存在于三个方面:欺诈样本稀疏、在线交易中复杂的特征以及电子商务数据的超大规模。为了解决上述问题,在本文中,我们提出了一个高效的基于图的大规模欺诈检测框架。具体来说,我们首先提出了一种异构标签传播算法,以便召回更多潜在的欺诈样本用于进一步的模型训练;原创 2024-04-07 12:21:57 · 443 阅读 · 0 评论 -
用深度学习进行图异常检测的综合调查 A Comprehensive Survey on Graph Anomaly Detection with Deep Learning
异常是指在样本中与其他观察值(例如数据记录或事件)明显偏离的罕见观察值。在过去几十年里,由于这些事件在安全、金融和医学等广泛领域中的影响,异常挖掘的研究引起了越来越多的关注。因此,旨在识别这些罕见观察值的异常检测已成为世界上最重要的任务之一,并已展现出在预防金融欺诈、网络入侵和社交垃圾邮件等有害事件方面的力量。检测任务通常通过识别特征空间中的异常数据点来解决,这种方法固有地忽略了现实世界数据中的关系信息。同时,图表已被广泛用于表示结构/关系信息,从而引发了图异常检测问题 - 在单个图中识别异常图对象(即节点原创 2024-04-07 12:20:39 · 381 阅读 · 0 评论 -
最新SOTA财务造假模型综述State of the art in financial statement fraud detection_ A systematic review
在过去的几十年中,欺诈行为日益猖獗,像Satyam、Enron和WorldCom这样的大型企业因其欺诈性财务报告实践而成为头条新闻。在这项研究中,我们对有关金融报表欺诈检测的文献进行了系统性综述和文献计量分析。在进行文献计量分析后,我们确定了金融报表欺诈检测中的领先研究人员、出版物、来源、国家和合作模式。我们的系统性综述涵盖了以下主题:使用的数据分析工具、用于识别欺诈公司的数据库、控制组样本设计(非欺诈公司)、使用的关键维度缩减工具、应对数据稀缺性(不平衡数据)的技术、模型中采用的解释变量、支持欺诈指标的理原创 2024-04-06 15:06:09 · 1194 阅读 · 0 评论 -
可信异常检测综述 Trustworthy Anomaly Detection_ A Survey
异常检测在现实世界中有着广泛的应用,如银行欺诈检测和网络入侵检测。在过去的十年中,已经开发了各种异常检测模型,这些模型取得了很大的进展,可以准确地检测各种异常。尽管取得了成功,异常检测模型仍然面临许多限制。最重要的一个限制是我们是否可以信任模型的检测结果。近年来,研究界已经付出了巨大的努力来设计值得信赖的机器学习模型,比如开发值得信赖的分类模型。然而,对于异常检测任务的关注远远不够。考虑到许多异常检测任务都涉及到改变生活的任务,涉及到人类,将某人标记为异常或欺诈者应该非常谨慎。原创 2024-04-06 15:04:32 · 590 阅读 · 0 评论 -
使用Python进行时间序列异常检测的实用指南
与传统的Z得分不同,稳健的Z得分使用中位数绝对偏差,该值始终小于标准偏差。因此,为了获得类似于Z得分的值,我们必须对其进行缩放。在没有异常值的正态分布中,MAD大约是标准偏差的2/3(确切地说是0.6745)。因此,因为我们正在除以MAD,所以我们乘以0.6745以回到正常Z得分的比例。稳健的Z得分方法在两个重要假设下效果最佳:数据接近正态分布MAD不等于0(当超过50%的数据具有相同值时会发生)原创 2024-01-28 21:36:13 · 1763 阅读 · 0 评论 -
异常检测系列:基于极限梯度提升的异常检测(XGBOD)
表示学习研究了在没有任何人为干预的情况下发现原始数据表示的系统方法。XGBOD(极限梯度提升异常检测)应用不同的无监督异常检测方法来创建称为转换异常得分(TOS)的新特征。它使用皮尔逊相关系数来保留有用的特征。表示学习的默认无监督学习模型包括KNN、AvgKNN、LOF、iForest、HBOS和OCSVM。XGBOD将TOS添加到原始特征中以构建模型。原创 2024-01-26 21:50:54 · 1390 阅读 · 1 评论 -
异常检测系列:AutoEncoder模型介绍
自动编码器模型是神经网络或深度学习的重要应用。它们广泛应用于降维、图像压缩、图像去噪和特征提取。它们还应用于异常检测,并取得了优秀的结果。深度学习是机器学习的一个完整领域。鉴于并非所有读者都熟悉深度学习,我在本章中专门介绍了深度学习的基础知识。因为很多读者熟悉回归,所以我将从回归的角度介绍深度学习,并使用逻辑回归来解释神经网络图。这种回归友好的方法可以帮助读者理解神经网络建模。在此基础上,我将解释自动编码器的结构,并向您展示如何构建异常分数。我将深入介绍深度学习模型的组成部分,包括批量大小的概念、L1和L2原创 2024-01-26 21:47:52 · 2240 阅读 · 2 评论 -
异常检测系列:基于聚类的局部异常因子(CBLOF)
这意味着如果前一个簇的大小|Ck|是下一个簇的五倍,簇k及以上被定义为大簇,簇k-1及以下被定义为小簇。按照局部邻域的精神,聚类C1中的数据是聚类C2的局部离群值,聚类C3中的数据是聚类C4的局部离群值。如果预期异常组中某个特征的均值高于正常组的均值,而结果却相反,这将是违反直觉的。当训练数据的异常值分数按升序排序时,前5%的数据是根据5%的污染率来确定的异常值。下面的“y_by_average”是对训练数据的5个模型预测结果的平均值,这些结果存储在数据框“train_scores_norm”中。原创 2024-01-25 23:14:56 · 1538 阅读 · 0 评论 -
异常检测系列:K最近邻算法KNN
上表显示了正常组和异常组的特征。它显示了正常组和异常组的计数和计数百分比。请记住,在有效的展示中,要用特征名称标记特征。一旦确定了阈值,大小就确定了。如果阈值是从图(D.2)中得出的,并且没有先验知识,那么大小统计数据成为一个很好的起点参考。所有均值必须与领域知识一致。在我们的案例中,异常组的均值小于正常组的均值。异常组的平均分数应该高于正常组的分数。您不需要过多解释分数。因为我们在数据生成中有真实值,所以我们可以生成一个混淆矩阵来了解模型的性能。该模型表现不错,并且识别出了所有的25个异常值。原创 2024-01-25 23:04:35 · 1707 阅读 · 0 评论 -
异常检测系列:局部异常因子(LOF)
如果一个数据点远离其邻域中的数据主体,那么它被认为是一个离群值,但如果从整个数据宇宙来看,它可能不是一个离群值。我们可以选择更保守的方法,选择一个较高的阈值,这将导致异常组中的异常值更少,但希望更精细。例如,在图(A)中,无论是蓝色簇还是绿色簇中的数据点的LOF值都接近1,即使两个簇的密度不同。通过异常值分数,您可以选择一个阈值,将具有高异常值分数的异常观测值与正常观测值分开。下面的“y_by_average”是训练数据的20个模型预测的平均值,这些值存储在数据框“train_scores_norm”中。原创 2024-01-25 22:37:55 · 1875 阅读 · 0 评论 -
异常检测系列:高斯混合模型(GMM)
假设数据点分为四个组,如图(A.1)所示。有两种或更多种解释数据的方式。图(A.1)是K-means的方式。它假设有固定数量的簇,本例中为四个簇。然后将每个数据点分配给一个簇。图(A.2)是GMM的方式。它假设有固定数量的具有不同均值和标准差的高斯分布。在我们的例子中,它假设有四个分布。我将图(A.1)和图(A.2)垂直对齐,以比较GMM和K-means。GMM用四个分布的概率描述一个数据点,而K-means将一个数据点识别为一个且仅一个簇。假设一个数据点在最左端。原创 2024-01-25 22:33:49 · 1784 阅读 · 0 评论 -
异常检测系列:单类支持向量机(OCSVM)
OCSVM的异常得分是数据点到超平面的距离,如图(B)所示。这个距离也被称为相似度度量。相似度度量是通过N维相似度矩阵计算得出的(参见Aggarwal(2016)[6])。它是通过核函数计算得出的,例如径向基函数、线性函数、多项式函数或Sigmoid函数。径向基函数简单地计算输入x与固定点c之间的距离,例如。原创 2024-01-25 22:29:37 · 2214 阅读 · 0 评论 -
异常检测系列:孤立森林(Isolation Forest)模型介绍
大多数现有的基于模型的异常检测方法会构建一个正常实例的概要,然后将不符合正常概要的实例标识为异常值。但是,Isolation Forest直接且明确地隔离异常值。IForest采用树结构来隔离每个单独的数据点。异常值是首先被单独分离出来的单个数据点;而正常点往往在树中聚集在一起。由于Isolation Forest不使用任何距离度量来检测异常值,因此它对于大数据量和高维问题是快速且适用的。原创 2024-01-25 13:32:09 · 2433 阅读 · 0 评论 -
异常检测系列:基于经验累积分布的异常检测(ECOD)
如果一个观测值在几乎所有变量方面都是异常值,那么该观测值很可能是异常值。HBOS根据变量的直方图定义每个变量的异常值得分。所有变量的异常值得分可以相加得到一个观测值的多元异常值得分。由于直方图易于构建,HBOS是一种有效的无监督方法来检测异常值。原创 2024-01-25 11:56:56 · 1855 阅读 · 0 评论 -
异常检测系列:Histogram-based Outlier Score_HBOS算法
在第二步中,我们将异常值分数绘制在直方图中,然后选择一个值,称为阈值,将正常观测值与异常观测值分开。如果一个模型能够有效地识别训练数据中的异常值,那么这些异常值应该表现出异常性的特征。通常情况下,某些观察结果的值在相应的变量方面是异常值,但是某些值是正常的。因为异常值分数已经衡量了数据点与其他数据点的偏差,我们可以按照它们的异常值分数对数据进行排序。那些具有较高异常值分数的数据点可能是异常值。我们可以选择一种更保守的方法,通过选择一个较高的阈值,这将导致异常值组中的异常值更少,但希望更精细。原创 2024-01-24 23:20:09 · 1369 阅读 · 1 评论 -
异常检测系列:异常检测基本介绍
例如,我们之前提到的火灾索赔示例,一种欺诈类型是策划的军火库犯罪,另一种类型是火灾损失的夸大。正如其GitHub页面(https://github.com/yzhao062/pyod)上的标语所说,“Python异常值检测模块是一个全面且可扩展的Python库,用于异常值检测(异常检测)”。标记的异常值可以来自多种类型的异常值。首先,异常值是与其他值相距较远的罕见事件,一种直观的方法是测量数据点之间的接近程度。因此,异常检测需要多种算法来发现隐藏的数据模式,对罕见事件进行仔细调查,并更好地理解噪声的来源。原创 2024-01-24 22:03:21 · 1399 阅读 · 0 评论