weixin_50304531-CSDN博客

原创二元分类模型评估方法

根据分类模型和回归模型的不同，相应的评价标准也不尽相同，例如在分类模型中，就有以下 8 种不同的评价标准。

2023-11-17 11:21:25 1910

原创 python批量读取同一文件夹下所有excel文件并且合并

*适用场景：**所有表的表头信息相同，（不相同的会另起一列，不会匹配错误）需求： python批量读取同一文件夹下所有excel文件并且合并。

2023-10-09 10:34:18 939

转载决策树- 随机森林/GBDT/XGBoost

决策树随机森林 GBDT XGBoost

2023-09-19 10:15:35 1300

文章目录1 聚类的基本数据结构1.1 数据矩阵（Data matrix，或称对象-属性结构）1.2 相异度矩阵（dissimilarity matrix 或称对象-对象结构）2 不同数据类型的相异度计算方法2.1 区间标度变量2.1.1 距离法2.1.1.1 欧几里得距离2.1.1.2 标准化的欧几里得距离2.1.1.3 切比雪夫距离2.1.1.4 曼哈顿距离2.1.1.5 兰氏距离2.1.1.6 闵科夫斯基距离（明氏距离）2.1.1.7 马氏距离2.1.2 相似性系数2.1.2.1 夹角余弦2.1.2.2

2023-08-08 14:19:02 4362

原创 K-means 案例代码实现（Python）

K-means代码实现

2023-04-24 09:20:03 4388 3

原创 WOE与IV值原理

WOE IV值

2022-11-10 14:55:44 1800

原创 python安装卸载及查看python版本/第三方包版本

pytho安装、离线安装、查看版本

2022-07-27 14:58:50 7050

原创 bagging和随机森林

接下来会介绍一些基于决策树的具有代表性的集成模型，如随机森林（RF），GBDT，XGBoost以及lightGBM。本章主要介绍随机森林（RandomForest，简写RF），RF是bagging集成模型的扩展变体，所以前面会简要介绍一些关于bagging的内容，后面会有专门的“集成学习”的章节来重点介绍bagging相关内容。...

2022-07-18 16:57:57 1107

转载机器学习算法 - 集成算法

集成算法、bagging、boosting、stacking、随机森林

2022-07-15 16:34:39 2377

原创统计学基础-常用统计量和抽样分布(卡方分布、t分布、F分布)(3)

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录1 统计量1.1 概念：1.2 常用统计量2 抽样分布2.1 卡方分布2.1.1 概念2.读入数据1 统计量1.1 概念：统计量是统计理论中用来对数据进行分析、检验的变量。简单点说，就是不含任何未知参数的样本的函数，就叫统计量。在实际应用中，当我们从某个总体中抽取一个样本（X1，X2，X3......，Xn）（X1，X2，X3......，Xn）（X1，X2，X3......，Xn）后，并不能直接用它对总体的有关.

2022-03-31 16:37:50 1202

原创统计基础—大数定律和中心极限定理(2)

文章目录一、大数定律1.1 贝努力大数定律（伯努利）1.2 切比雪夫大数定律一、大数定律切比雪夫不等式—大数定律的引理设 XXX 为一个随机变量，E(X),D(X)E(X),D(X)E(X),D(X) 存在，则对 ∀a>0\forall{a}>0∀a>0，有P(∣X−E(X)∣≥a)≤D(X)a2P(|X-E(X)| \geq a) \leq \frac{D(X)}{a^2}P(∣X−E(X)∣≥a)≤a2D(X)或P(∣X−E(X)∣≤a)≥1−D(X)a2P(

2022-03-29 16:43:09 1335 1

原创统计基础—数据集中趋势、离散程度、偏度与峰度的衡量指标(1)

集中趋势离散程度偏度和峰度

2022-03-29 16:40:18 5911

原创线性回归违背基本情况的假设-异方差、自相关、异常值

文章目录1 违背基本情况的假设-异方差1.1 异方差产生的原因1.3 异方差性的检验1.3.1 残差图分析法1.3.2 等级相关系数法（斯皮尔曼检验(Spearman)）1.4 误差项的异方差问题解决方法1.4.1一元加权最小二乘估计(WLS)1.4.2 多元加权最小二乘法1 违背基本情况的假设-异方差假定随机误差项 ε1,ε2,⋯ ,εn\varepsilon_1,\varepsilon_2,\cdots,\varepsilon_nε1,ε2,⋯,εn 具有等方差，独立或不相关关系。即

2022-02-15 09:03:19 2324

原创 pytho常用语法

文章目录一、随机抽取数据一、随机抽取数据假设有10W行数据，每一行都11列的属性。现在，需要随机抽取其中的2W行。实现方法很简单：利用Pandas库中的sample。DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)n是要抽取的行数。（例如n=20000时，抽取其中的2W行）frac是抽取的比列。（有一些时候，我们并对具体抽取的行数不关系，我们

2021-05-12 10:15:12 166

原创随机森林调参 - python

由于采用了集成算法，本身精度比大多数单个算法要好，所以准确性高。在测试集上表现良好，由于两个随机性的引入，使得随机森林不容易陷入过拟合（样本随机，特征随机）。在工业上，由于两个随机性的引入，使得随机森林具有一定的抗噪声能力，对比其他算法具有一定优势。由于树的组合，使得随机森林可以处理非线性数据，本身属于非线性分类（拟合）模型。它能够处理很高维度（feature很多）的数据，并且不用做特征选择，对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化。

2021-03-04 17:49:54 5202 3

原创 Oracle常用语法小结

文章目录1、数据的两两组合1.1 不分先后顺序的实现value_col列的值的两两组合1.2 有先后顺序的实现value_col列的值的两两组合2、字段拼接过程中以0开头的小数，开头的0消失3 创建一张与其他表相同表结构的表4 模糊匹配5 增删改查1、数据的两两组合1.1 不分先后顺序的实现value_col列的值的两两组合--不分先后顺序的实现value_col列的值的两两组合select REPLACE(sys_connect_by_path (value_col, '#'),'#') co

2021-03-04 14:52:45 338

原创 LightGBM 调参

文章目录一、LightGBM简介二、LightGBM原理2.1 直方图算法2.2 LightGBM的直方图做差加速2.3 带深度限制的Leaf-wise的叶子生长策略3.4 直接支持类别特征（即不需要做one-hot编码）3.5 直接支持高效并行三、梯度提升的方法3.1 梯度提升决策树（GBDT）3.2 DART 梯度提升3.3 lgbm goss 基于梯度的单边采样四、参数解释五、调参步骤5.1 原生实例5.2 sklearn接口实例一、LightGBM简介 LightGBM是一个梯度Boost

2020-12-08 18:00:40 3379

原创模型融合（集成算法）- k折交叉验证sklearn中的StratifiedKFold

文章目录一、交叉验证1.1 简单交叉验证1.2 简单交叉验证1.3 自助法二、交叉验证用到的函数说明2.1 StratifiedKFold参数2.2 split(X, y)函数参数2.3 concat()数据合并参数2.4 iloc()函数，通过行号来取行数据2.5 argmax 预测类别2.6 f1_score 评价函数三、StratifiedKFold 交叉验证代码参考一、交叉验证交叉验证交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组，一部分做为训练集(train

2020-12-07 17:17:25 1942

原创 Python 模型融合-投票法

文章目录前言代码前言假设你已经训练了一些分类器，每一个都达到了80%的准确率。这些分类器分别是一个逻辑回归分类器，一个支持向量机分类器，一个随机森林分类器，一个k近邻分类器，也许还有其他。有一种非常简单的方法来创建更好的分类器，这个方法就是聚合每个分类器的预测，并将获得最多投票的类作为自己的预测。这种多数投票分类器被称为硬投票分类器。软投票是基于分类标签概率投票，将所有模型预测样本为某一类别的概率的平均值作为标准，概率最高的对应的类型为最终的预测结果；这种投票分类器往往比单个的

2020-12-07 09:26:01 5367

原创模型融合(集成算法) - 堆叠法 Stacking

参考：https://www.cnblogs.com/jiaxin359/p/8559029.htmlhttps://www.jianshu.com/p/7fc9aa03ec11文章目录前言一、概念理解二、执行步骤三、使用mlxtend库实现Stacking方法3.1 基于类别或者概率3.2 基于特征前言将个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题，我们可以使用投票法来选择输出最多的类。对于回归问题，我们可以将分类器输出的结果求平均值。上面说的投票法和平均法都是很

2020-12-02 16:52:53 5488

原创模型融合(集成方法) -投票法

参考：https://www.cnblogs.com/gobetter/p/13786704.htmlhttps://blog.csdn.net/oyww710/article/details/106310449文章目录一、基础原理1.1 硬投票1.2 软投票二、代码2.1 硬投票2.2 软投票一、基础原理在所有集成学习方法中，最直观的是多数投票。因为其目的是输出基础学习者的预测中最受欢迎（或最受欢迎）的预测。多数投票是最简单的集成学习技术，它允许多个基本学习器的预测相结合。与选举的工作方

2020-12-02 15:12:02 14064 3

原创模型融合方法分类

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一模型融合算法优势二模型融合介绍2.1 模型融合的概念2.2 模型融合的条件2.3 构建不同集成模型的方法三模型融合策略3.1 Voting 投票法3.2 Averaging 平均法3.3 Ranking 排序法3.4 Binning3.5 Bagging 融合—并行训练（例如随机森林）3.6 Boosting 融合—-串行（迭代）训练Boosting 与 Bagging的比较3.7 Stacking3.8 Blend

2020-11-16 15:18:05 4380

原创 Python sklearn逻辑回归(Logistic Regression,LR)参数

https://blog.csdn.net/sun_shengyun/article/details/53811483Sklearn库中Logistic Regression函数各个参数文章目录前言参数前言在scikit-learn中，与逻辑回归有关的主要是这3个类。LogisticRegression， LogisticRegressionCV 和logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要区别

2020-11-16 14:57:15 19479 2

原创 Python 决策树调参

系列文章目录https://www.jianshu.com/p/1f20e2362676https://blog.csdn.net/linzhjbtx/article/details/85722187https://www.cnblogs.com/chenyaling/p/7236435.htmlhttps://bluebird.blog.csdn.net/article/details/98595483文章目录系列文章目录决策树简介一、参数二、常用函数三、模型调参注意事项总结决策树简介

2020-11-16 11:13:34 2209

原创 XGBoost python调参

1. 简介如果你的预测模型表现得有些不尽如人意，那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法，可以处理各种不规则的数据。构造一个使用XGBoost的模型十分简单。但是，提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了好几个参数。所以为了提高模型的表现，参数的调整十分必要。在解决实际问题的时候，有些问题是很难回答的——你需要调整哪些参数？这些参数要调到什么值，才能达到理想的输出？这篇文章最适合刚刚接触XGBoost的人阅读。在这

2020-11-10 17:29:21 3030

weixin_50304531的博客