自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 二元分类模型评估方法

根据分类模型和回归模型的不同,相应的评价标准也不尽相同,例如在分类模型中,就有以下 8 种不同的评价标准。

2023-11-17 11:21:25 1178

原创 python批量读取同一文件夹下所有excel文件并且合并

*适用场景:**所有表的表头信息相同,(不相同的会另起一列,不会匹配错误)需求: python批量读取同一文件夹下所有excel文件并且合并。

2023-10-09 10:34:18 493

转载 决策树- 随机森林/GBDT/XGBoost

决策树 随机森林 GBDT XGBoost

2023-09-19 10:15:35 619

原创 聚类 -距离度量方法与模型评估方法(一)

文章目录1 聚类的基本数据结构1.1 数据矩阵(Data matrix,或称对象-属性结构)1.2 相异度矩阵(dissimilarity matrix 或称对象-对象结构)2 不同数据类型的相异度计算方法2.1 区间标度变量2.1.1 距离法2.1.1.1 欧几里得距离2.1.1.2 标准化的欧几里得距离2.1.1.3 切比雪夫距离2.1.1.4 曼哈顿距离2.1.1.5 兰氏距离2.1.1.6 闵科夫斯基距离(明氏距离)2.1.1.7 马氏距离2.1.2 相似性系数2.1.2.1 夹角余弦2.1.2.2

2023-08-08 14:19:02 2889

原创 K-means 案例代码实现(Python)

K-means代码实现

2023-04-24 09:20:03 4139 3

原创 WOE与IV值原理

WOE IV值

2022-11-10 14:55:44 874

原创 python安装卸载及查看python版本/第三方包版本

pytho安装、离线安装、查看版本

2022-07-27 14:58:50 6381

原创 bagging和随机森林

接下来会介绍一些基于决策树的具有代表性的集成模型,如随机森林(RF),GBDT,XGBoost以及lightGBM。本章主要介绍随机森林(RandomForest,简写RF),RF是bagging集成模型的扩展变体,所以前面会简要介绍一些关于bagging的内容,后面会有专门的“集成学习”的章节来重点介绍bagging相关内容。...

2022-07-18 16:57:57 900

转载 机器学习算法 - 集成算法

集成算法、bagging、boosting、stacking、随机森林

2022-07-15 16:34:39 1997

原创 统计学基础-常用统计量和抽样分布(卡方分布、t分布、F分布)(3)

提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录1 统计量1.1 概念:1.2 常用统计量2 抽样分布2.1 卡方分布2.1.1 概念2.读入数据1 统计量1.1 概念:  统计量是统计理论中用来对数据进行分析、检验的变量。简单点说,就是不含任何未知参数的样本的函数,就叫统计量。  在实际应用中,当我们从某个总体中抽取一个样本(X1,X2,X3......,Xn)(X1,X2,X3......,Xn)(X1,X2,X3......,Xn)后,并不能直接用它对总体的有关.

2022-03-31 16:37:50 749

原创 统计基础—大数定律和中心极限定理(2)

文章目录一、大数定律1.1 贝努力大数定律(伯努利)1.2 切比雪夫大数定律一、大数定律切比雪夫不等式—大数定律的引理  设 XXX 为一个随机变量,E(X),D(X)E(X),D(X)E(X),D(X) 存在,则对 ∀a>0\forall{a}>0∀a>0,有P(∣X−E(X)∣≥a)≤D(X)a2P(|X-E(X)| \geq a) \leq \frac{D(X)}{a^2}P(∣X−E(X)∣≥a)≤a2D(X)​或P(∣X−E(X)∣≤a)≥1−D(X)a2P(

2022-03-29 16:43:09 847 1

原创 统计基础—数据集中趋势、离散程度、偏度与峰度的衡量指标(1)

集中趋势离散程度偏度和峰度

2022-03-29 16:40:18 4069

原创 线性回归违背基本情况的假设-异方差、自相关、异常值

文章目录1 违背基本情况的假设-异方差1.1 异方差产生的原因1.3 异方差性的检验1.3.1 残差图分析法1.3.2 等级相关系数法(斯皮尔曼检验(Spearman))1.4 误差项的异方差问题解决方法1.4.1一元加权最小二乘估计(WLS)1.4.2 多元加权最小二乘法1 违背基本情况的假设-异方差  假定随机误差项 ε1,ε2,⋯ ,εn\varepsilon_1,\varepsilon_2,\cdots,\varepsilon_nε1​,ε2​,⋯,εn​ 具有等方差,独立或不相关关系。即

2022-02-15 09:03:19 1506

原创 pytho常用语法

文章目录一、随机抽取数据一、随机抽取数据  假设有10W行数据,每一行都11列的属性。现在,需要随机抽取其中的2W行。  实现方法很简单:利用Pandas库中的sample。DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)n是要抽取的行数。(例如n=20000时,抽取其中的2W行)frac是抽取的比列。(有一些时候,我们并对具体抽取的行数不关系,我们

2021-05-12 10:15:12 112

原创 随机森林调参 - python

由于采用了集成算法,本身精度比大多数单个算法要好,所以准确性高。在测试集上表现良好,由于两个随机性的引入,使得随机森林不容易陷入过拟合(样本随机,特征随机)。在工业上,由于两个随机性的引入,使得随机森林具有一定的抗噪声能力,对比其他算法具有一定优势。由于树的组合,使得随机森林可以处理非线性数据,本身属于非线性分类(拟合)模型。它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化。

2021-03-04 17:49:54 4539 3

原创 Oracle常用语法小结

文章目录1、数据的两两组合1.1 不分先后顺序的实现value_col列的值的两两组合1.2 有先后顺序的实现value_col列的值的两两组合2、字段拼接过程中以0开头的小数,开头的0消失3 创建一张与其他表相同表结构的表4 模糊匹配5 增删改查1、数据的两两组合1.1 不分先后顺序的实现value_col列的值的两两组合--不分先后顺序的实现value_col列的值的两两组合select REPLACE(sys_connect_by_path (value_col, '#'),'#') co

2021-03-04 14:52:45 270

原创 LightGBM 调参

文章目录一、LightGBM简介二、LightGBM原理2.1 直方图算法2.2 LightGBM的直方图做差加速2.3 带深度限制的Leaf-wise的叶子生长策略3.4 直接支持类别特征(即不需要做one-hot编码)3.5 直接支持高效并行三、梯度提升的方法3.1 梯度提升决策树(GBDT)3.2 DART 梯度提升3.3 lgbm goss 基于梯度的单边采样四、参数解释五、调参步骤5.1 原生实例5.2 sklearn接口实例一、LightGBM简介  LightGBM是一个梯度Boost

2020-12-08 18:00:40 2592

原创 模型融合(集成算法)- k折交叉验证sklearn中的StratifiedKFold

文章目录一、交叉验证1.1 简单交叉验证1.2 简单交叉验证1.3 自助法二、交叉验证用到的函数说明2.1 StratifiedKFold参数2.2 split(X, y)函数参数2.3 concat()数据合并参数2.4 iloc()函数,通过行号来取行数据2.5 argmax 预测类别2.6 f1_score 评价函数三、StratifiedKFold 交叉验证代码参考一、交叉验证交叉验证  交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train

2020-12-07 17:17:25 1391

原创 Python 模型融合-投票法

文章目录前言代码前言  假设你已经训练了一些分类器,每一个都达到了80%的准确率。这些分类器分别是一个逻辑回归分类器,一个支持向量机分类器,一个随机森林分类器,一个k近邻分类器,也许还有其他。  有一种非常简单的方法来创建更好的分类器,这个方法就是聚合每个分类器的预测,并将获得最多投票的类作为自己的预测。这种多数投票分类器被称为硬投票分类器。软投票是基于分类标签概率投票,将所有模型预测样本为某一类别的概率的平均值作为标准,概率最高的对应的类型为最终的预测结果;  这种投票分类器往往比单个的

2020-12-07 09:26:01 5153

原创 模型融合(集成算法) - 堆叠法 Stacking

参考:https://www.cnblogs.com/jiaxin359/p/8559029.htmlhttps://www.jianshu.com/p/7fc9aa03ec11文章目录前言一、概念理解二、执行步骤三、使用mlxtend库实现Stacking方法3.1 基于类别或者概率3.2 基于特征前言  将个体学习器结合在一起的时候使用的方法叫做结合策略。对于分类问题,我们可以使用投票法来选择输出最多的类。对于回归问题,我们可以将分类器输出的结果求平均值。  上面说的投票法和平均法都是很

2020-12-02 16:52:53 4813

原创 模型融合(集成方法) -投票法

参考:https://www.cnblogs.com/gobetter/p/13786704.htmlhttps://blog.csdn.net/oyww710/article/details/106310449文章目录一、基础原理1.1 硬投票1.2 软投票二、代码2.1 硬投票2.2 软投票一、基础原理  在所有集成学习方法中,最直观的是多数投票。因为其目的是输出基础学习者的预测中最受欢迎(或最受欢迎)的预测。多数投票是最简单的集成学习技术,它允许多个基本学习器的预测相结合。与选举的工作方

2020-12-02 15:12:02 12549 3

原创 模型融合方法分类

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一 模型融合算法优势二 模型融合介绍2.1 模型融合的概念2.2 模型融合的条件2.3 构建不同集成模型的方法三 模型融合策略3.1 Voting 投票法3.2 Averaging 平均法3.3 Ranking 排序法3.4 Binning3.5 Bagging 融合—并行训练 (例如 随机森林)3.6 Boosting 融合—-串行(迭代)训练Boosting 与 Bagging的比较3.7 Stacking3.8 Blend

2020-11-16 15:18:05 3512

原创 Python sklearn逻辑回归(Logistic Regression,LR)参数

https://blog.csdn.net/sun_shengyun/article/details/53811483Sklearn库中Logistic Regression函数各个参数文章目录前言参数前言  在scikit-learn中,与逻辑回归有关的主要是这3个类。LogisticRegression, LogisticRegressionCV 和logistic_regression_path。其中LogisticRegression和LogisticRegressionCV的主要区别

2020-11-16 14:57:15 17600 2

原创 Python 决策树调参

系列文章目录https://www.jianshu.com/p/1f20e2362676https://blog.csdn.net/linzhjbtx/article/details/85722187https://www.cnblogs.com/chenyaling/p/7236435.htmlhttps://bluebird.blog.csdn.net/article/details/98595483文章目录系列文章目录决策树简介一、参数二、常用函数三、模型调参注意事项总结决策树简介

2020-11-16 11:13:34 2091

原创 XGBoost python调参

1. 简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了好几个参数。所以为了提高模型的表现,参数的调整十分必要。在解决实际问题的时候,有些问题是很难回答的——你需要调整哪些参数?这些参数要调到什么值,才能达到理想的输出?这篇文章最适合刚刚接触XGBoost的人阅读。在这

2020-11-10 17:29:21 2807

原创 Python入门基础

入门基础在这里插入代码片import pandas as pdf=open(“F:/公司竞赛/数据/term_dict_new.csv”,encoding =“utf-8”) #指定文件的绝对路径​data=pd.read_csv(f,quotechar="’") #读取文件,quotechar指定删除的引号的类型#read_excel方法读取数据,返回值类型为DataFrame,不需要再次转换#统计缺失值的数量​print(data.main_offer_eff_date.isn

2020-11-10 10:49:49 738

原创 python获取时间的函数

python 中与时间处理相关的模块包括 time( )、datetime( )、以及 calendartime( ) 模块1. time 模块1.1 time( ) 函数time( ) 函数用于返回当前时间的时间戳(1970年01月08时00分00秒到现在的浮点秒数)time() 函数的语法:time.time() #这里是引用此语句中的第一个 time 指的是 time 模块,该函数参数列表为空 import time print('当前时间的时间戳:%f' % time.t

2020-08-24 16:05:20 2235

翻译 pandas数据导入导出

1、导入CSV文件数据import pandas as pdf = open("C:/Users/Thinkpad/Desktop/Data/信息表.csv",encoding="utf-8")data= pd.read_csv(f)data.head()2、导入Excle文件数据import pandas as pdf = "C:/Users/Thinkpad/Desktop/Data/信息表.xlsx"data= pd.read_excel(f)print(data)3、导入Mysq

2020-08-24 11:57:12 423

Python数据教程 - numpy 数组

Python数据教程 - numpy 数组

2023-06-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除