数据建模
文章平均质量分 95
数据建模
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
模型集成系列:Bagging和Boosting方法
本文讨论和。这些(和)是全世界数据科学家常用的术语。但是这些术语究竟是什么意思,它们如何帮助数据科学家。我们将学习关于bagging和boosting以及它们在实践中的应用。原创 2023-12-20 11:47:54 · 1461 阅读 · 0 评论 -
特征工程系列:特征选择的综合指南
是从一个较大的特征集中选择最佳数量的特征的过程。这个特征选择过程有几个优点,也有各种各样的技术可用于这个特征选择过程。在这个内核中,我们将看到这些优点和各种特征选择技术。原创 2023-12-20 11:09:20 · 1001 阅读 · 0 评论 -
方法论系列:数据科学框架入门
对于这个项目,问题陈述已经给出,我们需要开发一个算法来预测泰坦尼克号上乘客的生存结果。泰坦尼克号的沉没是历史上最臭名昭著的船难之一。1912年4月15日,在她的首航中,泰坦尼克号与冰山相撞后沉没,导致2224名乘客和船员中的1502人死亡。这场轰动的悲剧震惊了国际社会,并促使出台更好的船舶安全规定。造成如此多人员伤亡的原因之一是乘客和船员的救生艇不够。尽管在沉船中幸存涉及一定的运气成分,但某些人群比其他人更有可能幸存,比如妇女、儿童和上层阶级。在这个挑战中,我们要求您完成对可能幸存的人群的分析。原创 2023-12-24 00:12:01 · 1091 阅读 · 0 评论 -
模型训练系列:模型集成方法系列_异质模型集成_Stacking方法
这个笔记本是一个非常基础和简单的入门指南,介绍了集成(组合)基本学习模型的方法,特别是被称为Stacking的集成变体。简而言之,Stacking在第一层(基本层)使用几个基本分类器的预测结果,然后在第二层使用另一个模型来预测前一层预测结果的输出。泰坦尼克号数据集是介绍这个概念的一个主要候选对象,因为许多Kaggle的新手都从这里开始。此外,尽管Stacking已经帮助许多团队赢得了Kaggle竞赛,但似乎在这个主题上缺乏内核,所以我希望这个笔记本可以填补一些空白。原创 2023-11-10 08:53:42 · 119 阅读 · 1 评论 -
模型系列:朴素贝叶斯_分类模型和案例
在机器学习中,朴素贝叶斯分类是一种简单而强大的算法,用于分类任务。在这个内核中,我使用Python和Scikit-Learn实现了朴素贝叶斯分类算法。我构建了一个朴素贝叶斯分类器,用于预测一个人是否年收入超过50K。原创 2023-12-28 08:15:46 · 962 阅读 · 0 评论 -
数据预处理系列:特征工程介绍_异常值、缺失值、编码、特征提取
什么是特征工程特征工程是将数据进行转换和丰富,以提高使用该数据训练模型的机器学习算法的性能的过程。特征工程包括诸如缩放或标准化数据、对非数值数据(如文本或图像)进行编码、按时间或实体聚合数据、合并来自不同来源的数据,甚至从其他模型中转移知识等步骤。这些转换的目标是增加机器学习算法从数据集中学习的能力,从而进行更准确的预测。为什么特征工程很重要?特征工程之所以重要有几个原因。首先,正如前面提到的,机器学习模型有时无法处理原始数据,因此必须将数据转换为模型能够理解的数值形式。这可能涉及将文本或图像数据转换为数原创 2023-11-24 16:39:19 · 732 阅读 · 1 评论 -
模型系列:聚类_五个聚类算法比较综述
聚类是最常用的无监督学习形式之一。它可以自动发现数据中的自然分组。聚类对于探索你对其一无所知的数据尤其有用。你可能会发现你从未想过的联系。聚类还可以作为一种特征工程的方法,可以将现有和新的示例映射和标记为属于数据中已识别的聚类之一。一些典型的实际应用包括欺诈检测、图书馆中的图书分类或市场营销中的客户细分。原创 2023-12-26 09:26:23 · 1986 阅读 · 0 评论 -
模型系列:随机森林_分类器模型与案例
数据集中有7个变量。所有变量都属于分类数据类型。这些变量分别是buyingmaintdoorspersonslug_bootsafety和class。class是目标变量。原创 2023-12-28 07:58:18 · 1133 阅读 · 0 评论 -
数据预处理系列:SMOTE和Tomek Links用于不平衡数据
SMOTE(Synthetic Minority Over-sampling Technique)算法是一种用于解决类别不平衡问题的算法。在类别不平衡问题中,少数类样本数量很少,而多数类样本数量很多。这会导致机器学习模型对多数类样本的学习更加充分,而对少数类样本的学习不足,从而影响模型的性能。SMOTE算法通过合成新的少数类样本来解决这个问题。具体来说,对于每个少数类样本,SMOTE算法会随机选择若干个最近邻的样本,然后在这些样本之间随机生成新的样本。原创 2024-01-03 13:08:07 · 3660 阅读 · 1 评论 -
数据预处理系列:数据标准化或归一化详细讲解
越来越深入地涉足机器学习,我越来越确信,在数据预处理期间深入理解我们正在做什么对结果有很大影响。数据转换是数据处理的基本步骤之一。标准化或归一化变量的主要原因是将特征带到相同的尺度上,使它们可比较。我们的数据集通常包含具有不同数量级、单位和范围的特征。使用原始尺度可能会给具有大范围的变量带来更多的权重,这是非常不可取的。数值特征被缩放到标准范围;缩放过程允许算法给变量分配相等的权重。本质上:归一化和标准化这两个术语有时可以互换使用,但通常指的是不同的事情。原创 2024-01-03 16:13:43 · 1259 阅读 · 0 评论 -
数据预处理系列:不平衡数据处理
不平衡数据是指一种情况,主要是在分类机器学习中,其中一个目标类代表了观察结果中的很大一部分。不平衡数据集是指类分布严重倾斜的数据集,例如少数类与多数类之间的比例为 1:100 或 1:1000。欺诈检测(绝大多数交易将属于“非欺诈”类别)疾病筛查(绝大多数将是健康的)订阅流失(绝大多数客户继续使用服务 - “无流失”类)广告投放(点击预测数据集没有很高的点击率)应该从知识领域获取更多来自少数类别的样本。改变损失函数,使失败的少数类具有更高的成本。对少数类进行过采样。原创 2023-11-08 15:41:26 · 426 阅读 · 1 评论 -
数据预处理系列: One hot编码原理和案例
目录1介绍为了适应机器学习算法,在构建模型之前,您必须将分类(非数值)变量转换为数值特征。这个过程被称为分类数据编码。有不同的编码技术可供选择,但最常见和广泛使用的是独热编码。有两种常用的方法:scikit-learn的OneHotEncoder(OHE)和Pandas的get_dummies方法。本质上:独热编码为分类变量中的每个唯一类别创建一个新的列,并分配一个二进制值1或0来指示给定观察中该类别的存在或不存在。1.1。原创 2023-12-28 10:04:03 · 2145 阅读 · 0 评论 -
模型系列:增益模型Uplift Modeling原理和案例
我们可以通过与具有相同特征的先前客户进行比较来了解客户的行为,例如年龄、教育(我们对他们了解的内容以及他们愿意透露的内容)。这种方法需要我们的消费者数据和完成的操作以及一些随机数据,例如在我们的商店中没有购买任何东西但在其他商店中购买了东西的客户的数据。$ \widehat{CATE} (uplift) = E[Y_i|X_i = x, W_i = 1] - E[Y_i|X_i = x, W_i = 0] $,其中 $ Y^1_i = Y_i = Y^1_i if W_i = 1$ and。原创 2023-12-28 22:42:39 · 3082 阅读 · 0 评论 -
数据预处理系列:多重共线性_检测和解决办法
多重共线性(Collinearity)指的是预测变量,也称为自变量,彼此之间并不是完全独立的。共线性是指两个特征之间存在线性关系(高度相关),并且它们被用作目标的预测变量。通常使用皮尔逊相关系数来衡量。多于两个预测变量之间也可能存在共线性(并且通常是这种情况)。多重共线性这个术语最初是由Ragnar Frisch提出的。多重共线性是共线性的一种特殊情况,其中一个特征与两个或更多特征呈线性关系。我们也可能出现这样的情况:多于两个特征之间存在相关性,但同时它们之间没有高度相关性。原创 2023-12-23 17:02:17 · 2649 阅读 · 0 评论 -
模型集成系列:投票分类器的原理和案例
投票分类器是一种集成学习方法,它将多个基本模型组合起来产生最终的最优解。我们创建一个单一模型,通过这些模型进行训练,并根据它们对每个输出类别的投票多数来预测输出。该算法将每个传入投票分类器的分类器的结果进行聚合,并根据最高的投票多数来预测输出类别。由于投票依赖于许多模型的性能,它们不会受到一个模型的大误差或错误分类的影响。换句话说,一个模型的差性能可以被其他模型的强性能抵消。原创 2023-12-28 13:28:55 · 1352 阅读 · 0 评论 -
数据探查系列:如何进行有意义的探索性数据分析(EDA)
1设置1.1导入库1.3数据集特征比赛的数据集(包括训练集和测试集)是从一个在信用卡欺诈检测(https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud)上训练的深度学习模型生成的。特征分布与原始数据集接近,但并非完全相同。请随意将原始数据集用作比赛的一部分,既可以探索差异,也可以查看是否将原始数据集纳入训练可以提高模型性能。请注意,与之前的Tabular Tuesdays数据集相比,这个比赛的基础数据集要大得多,因此可能包含更多的伪像。原创 2023-12-27 17:59:11 · 942 阅读 · 0 评论 -
数据预处理系列:资源匮乏下数据处理_Pandas内存优化和加速
生成的文件将不会有相同的大小减小,但仍然会更小。当使用一个新的数据集时,我通常会创建一个第一个笔记本来加载所有相关的文件,转换数据类型,将DataFrame保存为pickle文件,然后只在主要的特征工程笔记本中加载它。,应该被转换为分类列。这种特殊的数据类型基本上将所有唯一值保存在字典中,然后在每一列中放置内存高效的整数,并在使用DataFrame时显示相应的文本值。在某些情况下,先将列连接起来,然后对结果列应用标签编码是有意义的,以帮助树模型找到结构,或者避免将属于不同父类别的类别标记为相同的数字。原创 2023-12-23 08:14:35 · 937 阅读 · 0 评论 -
模型评估系列:回归模型的评估指标介绍和代码实践
性能指标对于监督式机器学习模型至关重要。为了确保您的模型在预测方面表现良好,您需要评估模型。我们的目标是确定模型在新数据上的表现如何。有一些评估指标可以帮助您确定模型的预测是否准确到一定的性能水平。# 定义一个函数,用于评估回归模型的性能指标# 使用交叉验证计算模型的得分# 计算调整后的R-squared# 观测值的数量是沿着轴0的形状# 特征的数量(预测变量的数量,p)是沿着轴1的形状# 调整后的R-squared公式# 计算均方根误差(RMSE)# 计算R-squared。原创 2023-12-24 00:45:49 · 1874 阅读 · 0 评论