数据挖掘
文章平均质量分 93
rgb2gray
人工智能领域优质创作者,CSDN博客专家
展开
-
SHAP(六):使用 XGBoost 和 HyperOpt 进行信用卡欺诈检测
本笔记本介绍了 XGBoost Classifier 在金融行业中的实现,特别是在信用卡欺诈检测方面。构建 XGBoost 分类器后,它将使用 HyperOpt 库(sklearn 的 GridSearchCV 和 RandomziedSearchCV 算法的替代方案)来调整各种模型参数,目标是实现正常交易和欺诈交易分类的最大 f1 分数。作为模型评估的一部分,将计算 f1 分数度量,为分类构建混淆矩阵,生成分类报告并绘制精确召回曲线。原创 2023-12-02 23:45:16 · 994 阅读 · 0 评论 -
SHAP(五):使用 XGBoost 进行人口普查收入分类
本笔记本演示了如何使用 XGBoost 预测个人年收入超过 5 万美元的概率。它使用标准 UCI 成人收入数据集。要下载此笔记本的副本,请访问。XGBoost 等梯度增强机方法对于具有多种形式的表格样式输入数据的此类预测问题来说是最先进的。Tree SHAP()允许精确计算树集成方法的 SHAP 值,并已直接集成到 C++ XGBoost 代码库中。这允许快速精确计算 SHAP 值,无需采样,也无需提供背景数据集(因为背景是从树木的覆盖范围推断出来的)。原创 2023-12-02 21:54:09 · 1513 阅读 · 0 评论 -
SHAP(四):NHANES I 生存模型
XGBoost 的 SHAP 值解释了模型的边际输出,即 Cox 比例风险模型的死亡对数几率的变化。我们可以从下面看到,根据模型,死亡的主要危险因素是年老。死亡风险的下一个最有力的指标是男性。该摘要图取代了特征重要性的典型条形图。它告诉我们哪些特征是最重要的,以及它们对数据集的影响范围。颜色使我们能够匹配特征值的变化如何影响风险的变化(例如高白细胞计数导致高死亡风险)。原创 2023-12-02 17:05:40 · 1808 阅读 · 0 评论 -
SHAP(三):在解释预测模型以寻求因果见解时要小心
与 Microsoft 的 Eleanor Dillon、Jacob LaRiviere、Scott Lundberg、Jonathan Roth 和 Vasilis Syrgkanis 合作撰写的关于因果关系和可解释机器学习的文章。当与 SHAP 等可解释性工具配合使用时,XGBoost 等预测机器学习模型会变得更加强大。这些工具确定输入特征和预测结果之间信息最丰富的关系,这对于解释模型的作用、获得利益相关者的支持以及诊断潜在问题非常有用。原创 2023-12-02 02:09:00 · 1151 阅读 · 0 评论 -
SHAP(一):具有 Shapley 值的可解释 AI 简介
这是用 Shapley 值解释机器学习模型的介绍。沙普利值是合作博弈论中广泛使用的方法,具有理想的特性。本教程旨在帮助您深入了解如何计算和解释基于 Shapley 的机器学习模型解释。我们将采取实用的实践方法,使用“shap”Python 包来逐步解释更复杂的模型。这是一个动态文档,作为“shap” Python 包的介绍。因此,如果您有反馈或贡献,请提出问题或拉取请求,以使本教程变得更好!原创 2023-11-28 01:22:36 · 2480 阅读 · 0 评论 -
SHAP(二):使用 XGBoost 预测英雄联盟获胜
特定预测的特征的 SHAP 值表示当我们观察该特征时模型预测的变化程度。在下面的汇总图中,我们将单个特征(例如“goldearned”)的所有 SHAP 值绘制成一行,其中 x 轴是 SHAP 值(对于该模型,以获胜的对数赔率为单位)。通过对所有特征执行此操作,我们可以看到哪些特征对模型的预测有很大影响(例如“goldearned”),哪些特征对预测影响很小(例如“kills”)。请注意,当点在线上不一致时,它们会垂直堆积以显示密度。每个点也根据该特征的值从高到低进行着色。原创 2023-11-05 23:29:57 · 710 阅读 · 0 评论 -
数据挖掘(七) DBSCAN聚类算法
DBSCAN是一种非常著名的基于密度的聚类算法。其英文全称是 Density-Based Spatial Clustering of Applications with Noise,意即:一种基于密度,对噪声鲁棒的空间聚类算法。直观效果上看,DBSCAN算法可以找到样本点的全部密集区域,并把这些密集区域当做一个一个的聚类簇。DBSCAN算法具有以下特点:基于密度,对远离密度核心的噪声点鲁棒无需知道聚类簇的数量可以发现任意形状的聚类簇DBSCAN通常适合于对较低维度数据进行聚类分析。原创 2022-11-12 23:00:43 · 4036 阅读 · 0 评论 -
数据挖掘(六) 层次聚类
层次聚类算法(Hierarchical Clustering)将数据集划分为一层一层的clusters,后面一层生成的clusters基于前面一层的结果。下图直观的给出了层次聚类的思想以及以上两种聚类策略的异同:;层次聚类算法是一种贪心算法(greedy algorithm),因其每一次合并或划分都是基于某种局部最优的选择。原创 2022-11-12 00:27:49 · 4322 阅读 · 4 评论 -
数据挖掘(五) k-means
对于K-Means算法,首先要注意的是k值的选择,一般来说,我们会根据对数据的先验经验选择一个合适的k值,如果没有什么先验知识,则可以通 过交叉验证选择一个合适的k值。在确定了k的个数后,我们需要选择k个初始化的质心。由于我们是启发式方法,k个初始化的质心的位置选择对最后的聚 类结果和运行时间都有很大的影响,因此需要选择合适的k个质心,最好这些质心不能太近。原创 2022-11-08 18:18:43 · 1511 阅读 · 0 评论 -
数据挖掘(四)KNN
k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法。一句话总结: 近朱者赤近墨者黑!k 近邻算法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k 近邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻算法不具有显式的学习过程。k 近邻算法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。原创 2022-11-07 17:10:01 · 2282 阅读 · 1 评论 -
数据挖掘(三) 决策树
一个叫做 “二十个问题” 的游戏,游戏的规则很简单: 参与游戏的一方在脑海中想某个事物,其他参与者向他提问,只允许提 20 个问题,问题的答案也只能用对或错回答。用决策树对需要测试的实例进行分类: 从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;是一种信息的度量方式,表示信息的混乱程度,也就是说: 信息越有序,信息熵越低。例如: 火柴有序放在火柴盒里,熵值很低,相反,熵值很高。熵指的是体系的混乱的程度,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。原创 2022-11-06 19:10:41 · 1701 阅读 · 0 评论 -
[转]离散数据编码方式总结()
在机器学习的特征选择的时候,往往有一些离散的特征不好计算,此时需要对这些特征进行编码,但是编码方式有很多,不同的包也会有不同的编码方式。(明白的区别吗?)通过在Titanic预测的学习, 在这里对不同包的编码方式进行一个小总结。至少以后使用的时候,不那么的乱用了。离散特征的取值之间没有大小的意义,比如color:[red,blue], 性别的男女等,那么就使用OneHot编码离散特征的取值有大小的意义,比如size:[X,XL,XXL],身高的高,中,低等,那么就使用。转载 2022-11-05 21:19:56 · 1001 阅读 · 0 评论 -
数据挖掘(二)朴素贝叶斯
指的是统计意义上的独立,即一个特征或者单词出现的可能性与它和其他单词相邻没有关系,比如说,“我们”中的“我”和“们”出现的概率与这两个字相邻没有任何关系。我们可以观察文档中出现的词,并把每个词作为一个特征,而每个词的出现或者不出现作为该特征的值,这样得到的特征数目就会跟词汇表中的词的数目一样多。我们可以观察文档中出现的词,并把每个词作为一个特征,而每个词的出现或者不出现作为该特征的值,这样得到的特征数目就会跟词汇表中的词的数目一样多。朴素贝叶斯是上面介绍的贝叶斯分类器的一个扩展,是用于文档分类的常用算法。原创 2022-11-04 19:57:44 · 2040 阅读 · 0 评论 -
数据挖掘(一)使用 Apriori 算法进行关联分析
Apriori是一种常用的数据关联规则挖掘方法,它可以用来找出数据集中频繁出现的数据集合。找出这样的一些频繁集合有利于决策,例如通过找出超市购物车数据的频繁项集,可以更好地设计货架的摆放。Apriori算法的目标是找到最大的K项频繁集。这里有两层意思,首先,我们要找到符合支持度标准(置信度or提升度)的频繁集。但是这样的频繁集可能有很多。第二层意思就是我们要找到最大个数的频繁集。比如我们找到符合支持度的频繁集AB和ABE,那么我们会抛弃AB,只保留ABE,因为AB是2项频繁集,而ABE是3项频繁集。原创 2022-11-04 01:30:46 · 5247 阅读 · 0 评论