进击的羊仔-CSDN博客

原创机器学习笔记（5）-LightGBM

LightGBM 是一个高性能的梯度提升框架，由 Microsoft 开发，旨在处理大规模数据集并提高训练效率。与 XGBoost 相比，LightGBM 采用了不同的策略来优化训练速度和内存使用，使其在处理大规模数据集时具有显著优势。

2024-08-05 16:50:07 401

如果一个特征带来的增益很高，但只在一个或少数几个决策树中被使用，这可能表明该特征对模型有较大的影响，但也可能带来过拟合的风险，特别是如果它与噪声或异常值相关联。：该特征可能在许多决策树中作为分裂点出现，但它每次分裂带来的增益不高。：该特征可能在数据中具有多种不同的表现形式或状态，这使得它在多个决策树的多个节点中作为分裂点，但由于其对模型性能提升的平均贡献较小，所以增益不高。：如果一个特征在数据中引入了噪声，它可能会在树的构建中被频繁使用，但由于它引入的噪声，每次分裂带来的增益可能并不显著。

2024-07-31 14:49:32 733

原创机器学习笔记（2）-决策树

（1）基尼值Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率，表示数据集整体的不确定性。Gini(D)越小，数据集D的纯度越高，不确定性越小。（2）基尼指数表示经a分割后数据集D的不确定性。（3）基尼不纯度的减少量。

2024-07-19 17:41:17 1003

原创【Python基础】常见问题整理

它允许开发者在对象创建时设定对象的状态，即给对象的属性赋初值。这个方法直接在原列表上操作，不需要返回新的列表，也就是说，它会就地修改列表。方法并不是强制性的，也就是说，如果你不定义它，Python 也会创建一个默认的。），也不做任何事情。：开发者可以定义对象应该具有的初始状态，例如设置默认值或从参数中获取初始值。函数可以接受一个可迭代对象作为参数，如果可迭代对象中有任何一个元素为真，则返回。方法是一个特殊的方法，也被称为构造函数或初始化方法。参数是必需的，它指向实例本身，而其他的参数可以根据需要添加。

2024-07-18 13:46:02 370

原创 xgboost相关知识随笔

L1和L2正则化各有优势，选择哪种正则化方法取决于具体的应用场景和数据特点。在实际应用中，通常需要通过交叉验证等技术来选择合适的正则化参数𝜆λ和𝛼α（对于弹性网络）。

2024-07-10 10:50:36 418

原创逻辑回归详解

（Cross-Entropy Loss），它衡量的是模型输出概率和真实标签之间的差异。逻辑回归的损失函数通常指的是。（Log Loss）或。一、逻辑回归模型公式。二、如何优化损失函数。

2024-05-17 19:45:21 206 1

原创 python面试题

找出列表中元素的所有可能组合中的最大值，可直接考虑5个原组合在一起的情况，最大值应该是 9534330。各位有好的想法，欢迎评论。

2024-05-17 16:03:41 880 1

原创机器学习笔记（3）-XGBoost

XGBoost的基本组成元素是：决策树。这些决策树即为“弱学习器”，它们共同组成了XGBoost；并且这些组成XGBoost的决策树之间是有先后顺序的：后一棵决策树的生成会考虑前一棵决策树的预测结果，即将前一棵决策树的偏差考虑在内，使得先前决策树做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一棵决策树。

2024-05-13 14:12:35 637 1

原创机器学习笔记（1）-集成学习简介

（1）基尼值Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率，表示数据集整体的不确定性。Gini(D)越小，数据集D的纯度越高，不确定性越小。（2）基尼指数表示经a分割后数据集D的不确定性。

2024-05-12 16:24:47 874 1

原创评分卡入模变量系数都是正的

WoE（Weight of Evidence）转换是一种将分类变量的每个类别映射到一个连续的数值，这个数值反映了该类别相对于参考类别（通常是目标事件发生率最低的类别）对于目标事件发生概率的影响强度。经过WoE转换后的变量系数都是正的，这是为了确保模型的输出能够正确反映不同类别对目标事件发生概率的影响，并且保持模型的解释性和一致性。这种设计使得评分卡模型更容易被业务理解和接受，同时也有助于模型在实际应用中的有效性。

2024-04-07 15:18:25 360

原创绘制直方图

【代码】绘制直方图。

2024-04-07 09:43:25 180

原创如何获取xgboost原生库默认参数值

【代码】如何获取xgboost原生库默认参数值。

2024-03-08 09:06:01 571 1

原创 Python删除字典中的一个值，并赋值给一个变量

删除指定的键（key）及其对应的值，并返回被删除的值。

2024-03-06 21:13:57 389

原创如何获取df某列（Series）单一值次数占比最大值以及对应值

1、使用value_counts()函数计算每个值出现次数，"normalize=True"参数可将次数转化为占比，返回Series对象（value_counts ）3、idxmax()方法获取Series对象最大值对应索引，即占比最大对应特征值。2、max()方法获取Series对象最大值。

2024-03-01 16:27:06 527 1

原创判断Series是否为空

Series不包含任何元素在pandas中，当且仅当一个Series不包含任何元素，才被认为是“空”的，而Series内元素全为NaN或None也会被认为非空。

2024-02-29 14:58:48 996 1

weixin_52157968的博客