数据挖掘案例
文章平均质量分 96
数据挖掘案例
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
处理缺失数据的全面回顾:探索特殊的缺失机制
缺失数据在数据科学中构成重要挑战,影响决策过程和结果。了解缺失数据的概念、发生原因以及为何适当处理缺失数据至关重要,尤其是在处理实际数据时,尤其是在表格数据中,这是现实世界中最常用的数据类型之一。文献中定义了三种缺失机制:完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR),每种机制在插补中都提出了独特的挑战。大多数现有工作都集中在相对容易处理的MCAR上。MNAR和MAR的特殊缺失机制较少被探讨和理解。本文回顾了处理缺失值的现有文献。原创 2024-04-17 11:51:38 · 1144 阅读 · 0 评论 -
异常检测系列:支持向量机(SVM)异常检测介绍
OCSVM的异常得分是数据点到超平面的距离,如图(B)所示。这个距离也被称为相似度度量。相似度度量是通过N维相似度矩阵计算得出的(参见Aggarwal(2016)[6])。它是通过核函数计算得出的,例如径向基函数、线性函数、多项式函数或Sigmoid函数。径向基函数简单地计算输入x与固定点c之间的距离,例如。原创 2024-01-25 13:43:08 · 2289 阅读 · 0 评论 -
异常检测系列:主成分分析PCA异常值分数检测
异常值与正常数据点不同。当它们投影到低维超平面时,它们将落在具有较小特征值的特征向量上。数据点的异常值分数是数据点到低维超平面的加权欧氏距离的总和。原创 2024-01-25 13:39:28 · 1820 阅读 · 0 评论 -
案例系列:信用卡交易欺诈_异常检测_孤立森林、局部离群因子、椭圆包络、支持向量机
诈骗检测项目现在非常常见,我们经常在网上遇到不同的解决方案。它们通常首先处理数据平衡,然后应用各种监督算法,因为类标签已经可用。然而,在现实中,大多数业务数据没有类标签,无监督算法在检测异常方面起着重要作用。因此,我尝试以不同的方式进行这项工作。我没有使用平衡数据,而是尝试使用专门用于解决异常检测问题的算法。此外,我还探索了异常检测算法的无监督和监督形式。上图显示,只有交易金额小于2500(约)的交易中存在欺诈行为。然而,在所有时间段内,交易中的欺诈行为是均匀分布的。原创 2024-01-21 13:15:18 · 1152 阅读 · 2 评论 -
案例系列:netflix电影推荐_基于图的推荐引擎
对于每部电影,选择相似描述的前5个,并创建一个节点Similar_to_this。为了确定推荐电影列表,我们将探索目标电影的邻域,而不是预先计算所有电影之间的度量值。换句话说,对于x和y共同拥有的每个节点u,将1/log(N(u))添加到度量中。量 $ \frac{1}{log(N(u))} $ 决定了u在度量中的重要性。这是一种用于计算节点之间接近程度的度量方法,基于它们共享的邻居节点。因此,属于同一描述组的两个电影将共享一个节点。组中电影数量越少,这个链接的权重越大。度量值越高,两个节点越接近。原创 2024-01-19 10:05:50 · 1230 阅读 · 0 评论 -
案例系列:预测银行在线交易是否为欺诈交易
想象一下,你站在杂货店的收银台前,身后排着长队,收银员大声宣布你的卡被拒绝了。在这一刻,你可能没有想到决定你命运的数据科学。尴尬之余,你确信自己有足够的资金来支付50位亲密朋友的超级玉米片派对所需的一切,于是你再次刷卡。结果还是一样。当你让开,让收银员接待下一个顾客时,你收到了银行的一条短信。“如果你真的试图花费500美元购买切达奶酪,请按1。”虽然在当时可能有些麻烦(而且常常令人尴尬),但这种防欺诈系统实际上每年为消费者节省了数百万美元。IEEE计算智能学会(IEEE-CIS)的研究人员希望提高这个数字,原创 2024-01-13 11:28:40 · 1191 阅读 · 0 评论 -
案例系列:Santander银行客户交易预测_数据探查和预测模型
案例系列:Santander银行客户交易预测_数据探查和预测模型案例系列:Santander银行客户交易预测_数据探查和预测模型使用的数据集:Santander客户交易预测在这个挑战中,Santander邀请Kagglers帮助他们识别哪些客户将来会进行特定的交易,无论交易金额多少。为了解决这个问题,提供给这个竞赛的数据与他们可用的真实数据具有相同的结构。数据是匿名的,每行包含200个数字值,仅用一个数字标识。接下来,我们将探索数据,为模型准备数据,训练模型并预测测试集的目标值,然后准备提交。原创 2024-01-12 23:15:16 · 903 阅读 · 0 评论 -
案例系列:马匹健康多分类预测_模型集成XGBOOST和LightGBM
欢迎来到马匹健康多类别分类预测笔记本!在这个项目中,我们将使用描述马匹健康各个方面的数据集。本次竞赛的目标是预测马匹的最终结果。接下来我们就开始笔记本。基本数据探索⚠️ 不一致的列:一些列包含不一致的值,需要通过管道手动或自动处理。原创 2024-01-12 09:29:09 · 1095 阅读 · 0 评论 -
案例系列:预测肝硬化处于阶段_XGBOOST多分类
我们创建了一些附加功能,并评估了不同方法和特征重要性在这个增强数据集上的性能。❌ SVC❌ KNN上述模型的参数化已包含在内,但尚未进行优化。原创 2024-01-12 09:14:01 · 937 阅读 · 0 评论 -
案例系列:电信客户流失_生存分析Survival Analysis
到目前为止,我们主要看到的是时间序列,我们观察到了过去,我们知道发生了什么/何时 - 预测是基于这些信息的。Q1:我们需要在观察到所有数据之前采取行动吗?Q2:事件发生的时间是否重要?# 创建一个二维数组S,大小为list1的长度乘以list2的长度# 并将其转换为DataFrame格式,并设置行索引为list1,列索引为list2# 将S中的某些元素设置为1# 将S的元素类型转换为整数类型# 显示S的内容display(S)201620172018201920202021P10。原创 2024-01-04 10:32:09 · 1049 阅读 · 0 评论 -
案例系列:便利店销售预测_基于Dart时间序列深度学习模型
📌 基准:📌 目标:📌 深度学习模型:📌 最佳模型:🏆 -> RMSLE: 0.38558 -> #1 排行榜(2022年9月21日),本笔记本的V24版本在这个笔记本中,我尝试测试和学习使用机器学习进行时间序列预测的不同方法。我想呈现一个全面的预测工作流程。我的主要重点是探索神经网络模型(如LSTM、NBEATS、TCN、TFT、N-HiTS)。我基本的理解是:这些复杂而灵活的方法需要大量的数据才能表现良好。对于单个、单变量的时间序列,通常情况下并不是这样,具有更多结构的统计方法往原创 2024-01-04 09:57:20 · 1452 阅读 · 0 评论 -
案例系列:银行信用卡欺诈_预测是否欺诈_ 自编码器AutoEncoder二分类
自动编码器是一种特殊类型的神经网络架构,其输出与输入相同。自动编码器以无监督的方式进行训练,以学习输入数据的极低级别表示。然后,这些低级特征被变形回来以投影实际数据。自动编码器是一个回归任务,网络被要求预测其输入(换句话说,模拟身份函数)。这些网络在中间有少量神经元的紧密瓶颈,迫使它们创建有效的表示,将输入压缩成低维代码,可以由解码器用于再现原始输入。原创 2023-12-19 02:49:57 · 1103 阅读 · 1 评论 -
案例系列:美国人口普查_预测收入超过50K_TabTransformer二分类
本示例演示了如何使用进行结构化数据分类,TabTransformer是一种用于监督和半监督学习的深度表格数据建模架构。TabTransformer基于自注意力的Transformer构建而成。Transformer层将分类特征的嵌入转换为强大的上下文嵌入,以实现更高的预测准确性。在这里,我们定义数据集的元数据,这些元数据对于读取和解析数据为输入特征以及根据其类型对输入特征进行编码非常有用。# 数值特征的名称列表"age", # 年龄"education_num", # 受教育年限。原创 2023-12-21 09:57:26 · 1295 阅读 · 0 评论 -
案例系列:营销模型_客户细分_无监督聚类
到目前为止,对于这些活动的反应并不强烈。总体参与者很少。此外,没有人参与了其中的全部5个活动。也许需要更有针对性和精心策划的活动来提升销售。# 创建一个新的图形窗口# 绘制盒图,y轴为"NumDealsPurchases"列的数据,x轴为"Clusters"列的数据# 使用预定义的调色板"pal"来设置颜色# 设置图形标题为"Number of Deals Purchased"# 显示图形plt.show()与营销活动不同,所提供的交易表现良好。它在群集0和群集3中有最佳结果。原创 2023-12-20 17:22:56 · 1408 阅读 · 0 评论 -
案例系列:银行信用卡欺诈_不均衡数据二分类
在这种情况下,我们的子样本将是一个具有50/50欺诈和非欺诈交易比例的数据框。这意味着我们的子样本将具有相同数量的欺诈和非欺诈交易。缩放后的金额和时间是具有缩放值的列。在我们的数据集中有492个欺诈案例,所以我们可以随机选择492个非欺诈案例来创建我们的新子数据框。我们将492个欺诈案例和非欺诈案例连接起来,创建一个新的子样本。# 导入所需的库# 创建StandardScaler和RobustScaler对象。原创 2023-12-20 12:18:48 · 1498 阅读 · 0 评论 -
案例系列:基于客户行为的贷款违约预测_决策树模型
贷款的定义可以描述为将财产、金钱或其他物质商品交给另一方,以换取未来偿还贷款本金、利息和其他财务费用。贷款可以是特定的、一次性的金额,也可以作为开放式的信用额度提供。贷款有不同的形式,如个人贷款、商业贷款、有担保贷款和无担保贷款。原创 2023-12-28 06:59:46 · 1034 阅读 · 0 评论 -
案例系列:美国人口普查_确定一个人年收入是否超过50K_TensorFlow决策森林的二分类
在这里,我们定义数据集的元数据,这些元数据对于根据其类型对输入特征进行编码非常有用。# 目标列名称。# 目标列的标签。# 权重列名称。# 数值特征的名称。"age",# 分类特征及其词汇表。"race","sex","year",现在我们进行基本的数据准备。# 准备数据框架# 将目标标签从字符串转换为整数# 将分类特征转换为字符串类型# 对训练数据和测试数据进行数据框架准备现在让我们展示训练和测试数据框的形状,并显示一些实例。原创 2023-12-19 02:20:51 · 1300 阅读 · 1 评论 -
案例系列:银行个人贷款营销_预测客户是否购买贷款_多个分类模型比较
在这个项目中,我们将解决一个关于对进行个人贷款分类的问题。Thera-Bank的大部分客户都是存款人。同时也是借款人(资产客户)的客户数量相当少,银行有兴趣快速扩大这一客户群体,通过贷款利息来增加收入。特别是,管理层希望寻找方法将其负债客户转化为零售贷款客户,同时保持他们作为存款人。去年银行针对存款客户进行的一项活动显示了超过9.6%的转化率成功。这促使零售营销部门开发了更好的目标营销活动,以提高成功率并减少预算开支。该部门希望开发一个分类器,帮助他们识别更有可能购买贷款的潜在客户。原创 2023-12-18 14:59:56 · 1248 阅读 · 0 评论 -
案例系列:银行电话营销_预测客户是否会购买定期存款_多个分类模型比较
公司为客户创造价值并建立强大的客户关系,以便从客户那里获得价值的过程。科特勒和阿姆斯特朗(2010年)。营销活动的特点是关注客户需求和整体满意度。然而,有不同的变量决定了营销活动是否成功。在制定营销活动时,我们需要考虑某些变量。1)人口细分:营销活动将针对哪个人口细分,并为什么?营销活动的这个方面非常重要,因为它将告诉我们应该向人口的哪个部分传达营销活动的信息。2)达到客户地点的分销渠道:实施最有效的策略,以充分利用这次营销活动。我们应该针对人口的哪个细分?我们应该使用哪种工具来传达我们的信息?(例如:电原创 2023-12-18 12:57:51 · 2774 阅读 · 0 评论 -
案例系列:IBM反洗钱交易数据_GNN节点分类检测
洗钱是一个价值数十亿美元的问题。检测洗钱非常困难。大多数自动化算法存在高误报率:将合法交易错误地标记为洗钱。相反的情况也是一个主要问题–漏报,即未检测到的洗钱交易。自然而然,犯罪分子会努力掩盖他们的行踪。对真实金融交易数据的访问受到严格限制–出于专有和隐私原因。即使可以访问,为每笔交易提供正确的标签(洗钱或合法)也是一个问题–如上所述。这里提供的IBM合成交易数据避免了这些问题。这里提供的数据基于一个由个人、公司和银行组成的虚拟世界。个人与其他个人和公司进行互动。同样,公司与其他公司和个人进行互动。原创 2023-12-28 07:40:12 · 2383 阅读 · 0 评论