素笺清风-CSDN博客

原创 xgboost算法过程推导

xgboost是机器学习集成学习boosting系列算法中的一种。现在具体讲解一下xgboost算法过程推导。目录一.xgboost1.xgboost的原理1.1定义模型：1.2.损失函数定义2.模型学习3.树的复杂度4.枚举所有不同树结构的贪心法5.引入新叶子的惩罚项7.划分点查找算法一.xgboost1.xgboost的原理xgboost是构造一棵棵树来拟合残差。1.1定义模型：...

2019-11-14 22:23:59 1262

在机器学习的优化问题中，梯度下降法和牛顿法是常用的两种凸函数求极值的方法，他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中，一般用改良的梯度下降法，也可以用牛顿法。由于两种方法有些相似，特地拿来简单地对比一下。目录一.梯度下降法1.梯度下降的思想1.1.批量梯度下降法1.2.随机梯度下降法1.3.随机梯度下降和梯度下降的比较二.牛顿法三.牛顿法和梯度下降法的比较1.牛顿法2.梯度...

2019-11-14 21:34:44 1017 2

原创常用的特征工程方法都有哪些，举例说明

在处理数据中,我们经常需要对离散数据来做特征工程处理,目录一.什么是特征工程1.定义2.目的二.常用方法1. 时间戳处理2. 分解类别属性3. 分箱/分区4. 交叉特征5. 特征选择6. 特征缩放7. 特征提取一.什么是特征工程1.定义本质上来说，呈现给算法的数据应该能拥有基本数据的相关结构或属性。在做特征工程时，其实是将数据属性转换为数据特征的过程，属性代表了数据的所有维度，在数据建模...

2019-11-14 20:46:48 1699

原创 stacking和blending的原理和各自的优劣

机器学习中集成学习算法,stacking和blending目录一.原理1.stacking2.blending二.stacking过程解读三.优劣1.stacking2.blending一.原理1.stackingstacking是k折交叉验证，元模型的训练数据等同于基于模型的训练数据，该方法为每个样本都生成了元特征，每生成元特征的模型不一样（k是多少，每个模型的数量就是多少）；测试集生成...

2019-11-14 20:21:05 1167

原创 bagging和boosting的思想简述各自的代表模型原理

在机器学习的集成学习中,有两种系列算法boosting,bagging。现在讲述一下二者的思想简述各自的代表模型原理。一.boosting1. 思想其主要思想是将弱分类器组装成一个强分类器。在PAC（概率近似正确）学习框架下，则一定可以将弱分类器组装成一个强分类器。2.代表模型及其原理AdaBoost通过加权多数表决的方式，即增大错误率小的分类器的权值，同时减小错误率较大的分类器的权值。...

2019-11-14 20:00:28 1743

原创 skleran包

总结一下至今为止我们用到的skleran包，每个都是干啥的，具体怎么用目录一.预处理包二.模型选择包三.直接导入模块四.集成学习包五.回归包六.算法包七.度量包一.预处理包from sklearn.preprocessing import PolynomialFeatures#从预处理包中导入多项式特征处理模块from sklearn.preprocessing import Stand...

2019-11-14 18:00:05 317

原创决策树的损失函数是什么？怎么理解？

在学习决策树的过程中,会存在损失函数。损失函数是什么呢?如何理解?目录一.决策树的损失函数二.如何理解一.决策树的损失函数为了避免出现过拟合的现象，我们要对决策树进行剪枝。决策树的剪枝类似一种参数正则化的过程，其选择正则化的参数是树的叶子节点的个数。设决策树 T 的叶子节点个数为 |T|，t 是树 T 的叶子节点，该叶节点有 Nt 个样本点，其中 k 类的样本点有 Ntk 个，Ht(T)...

2019-11-12 20:22:10 2676

原创条件熵和信息增益的关系,怎么理解条件熵？

在学习决策树的过程中,在ID3算法和C4.5算法中用到了熵,信息增益。那么条件熵和信息增益有什么关系呢?目录一.信息熵二.条件熵三.信息增益四.条件熵和信息增益的关系五.怎么理解条件熵1.条件熵2.推导公式六.举例1.信息熵2.条件熵3.信息增益一.信息熵表示一个随机变量的复杂性或者不确定性。当前样本集D中第 i 类样本所占的比例 pi ,则D的信息熵为信息熵越小,代表事件越确定。换...

2019-11-12 19:28:40 796

原创 ID3算法的缺陷，为什么倾向特征选项较多的特征？

在学习决策树的过程中,了解到最常用的算法ID3,C4.5,CART。现在我们了解一下ID3算法。目录一.ID3基本概念1.信息熵2.信息增益二.ID3的缺点:三.为什么倾向特征选项较多的特征?一.ID3基本概念ID3算法核心是根据“最大信息增益”原则选择划分当前数据集的最好特征。1.信息熵当前样本集D中第 i 类样本所占的比例 pi ,则D的信息熵为信息熵越小,代表事件越确定。换到...

2019-11-12 18:55:52 1975

原创向量的各种积，都有哪些，分别如何表示

机器学习中SVM的核函数里面用到向量积,特此了解一下向量中有哪些积.向量是由n个实数组成的一个n行1列（n1）或一个1行n列（1n）的有序数组；目录一.点乘二.叉乘公式一.点乘向量的点乘,也叫向量的内积、数量积，对两个向量执行点乘运算，就是对这两个向量对应位一一相乘之后求和的操作，点乘的结果是一个标量。对于向量a和向量b：a和b的点积公式为：要求一维向量a和向量b的行列数相同。...

2019-11-11 19:13:51 2357

原创如何理解SVM的损失函数

在机器学习SVM支持向量机中,有损失函数,那损失函数是如何求解的呢?目录一.SVM优化二.损失函数1.定义2.取值一.SVM优化SVM的原始优化目标和约束条件：线性支持向量机学习除了原始最优化问题，还有另外一种解释，就是最优化以下目标函数：二.损失函数1.定义目标函数的第一项是经验损失或经验风险，函数称为合页损失函数（hinge loss function）2.取值下标"...

2019-11-11 18:17:38 1335

原创 cut,qcut的区别

在机器学习中,我们有时候需要将数据分成若干个组来进行算法运算,这时候就用到了cut或者qcut方法,二者具体是如何使用的呢,让我们一起来探讨一下吧。目录一.功能1. 具体方法2.参数解释3.结果二.区别三.例题一.功能两者功能相似，都是将一个Series切割成若干个分组1. 具体方法pandas.qcut(x, q, labels=None, retbins=False, precis...

2019-11-10 10:28:10 585

原创特征归一化的好处

归一化后有什么好处呢？原因在于神经网络学习过程本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度，这也正是为什么我们需要对数据都要做一个归一化预处理的原因。基于参数的模型或基于距离的模型，都是要进行特征的归一化。...

2019-11-10 09:51:26 703

原创变量编码方式one-hot encoding ,label encoding

在机器学习中,我们拿到的数据通常比较脏乱，可能会带有各种非数字特殊符号，比如中文。而机器学习模型需要的数据是数字型的，因为只有数字类型才能进行计算。这时便需要对变量进行编码,那变量是如何进行编码的呢?对于分类型数据的编码，我们通常会使用两种方式来实现，分别是：one-hot encoding 和 label-encoding。独热编码就是将原始特征变量转换成以原始特征值分类的多维度的变量，并用...

2019-11-09 22:47:34 2151 1

转载为什么离散化，离散化的优势

在机器学习中，在处理数据的时候，经常把连续性特征(变量)离散化。为什么要这么做呢，这样做有什么优势吗?目录一、离散化原因二、离散化的优势三、离散化的方法1、无监督学习方法1.1等宽法1.2等频法1.3基于聚类的方法2、有监督学习方法：一、离散化原因数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点：...

2019-11-09 16:47:57 1906

原创最大似然估计MLE,最大后验估计MAP

机器学习算法思想中,最大似然估计，最大后验估计经常遇见，必须掌握。一.频率派与贝叶斯学派二.最大似然估计(MLE)三.最大后验估计(MAP)一.频率派与贝叶斯学派对于概率看法不同有两大派别,分别是频率学派与贝叶斯学派。他们看待世界的视角不同，导致他们对于产生数据的模型参数的理解也不同。频率学派认为世界是确定的。在多次重复实验中事件趋于一个稳定的值p，那么这个值就是该事件的概率。他...

2019-11-07 20:03:22 289

原创机器学习-查准率、查全率、调和平均值

在机器学习里,预测出来的结果与真实情况总会有差距,两者的误差需要进行测试。一.误差的表示方法二.查准率、查全率1.定义2.具体解释3.两者关联三.调和平均值1.公式2.用参数β度量两者关系一.误差的表示方法误差的大小有时候不能视为评判算法效果的依据,这时需要引进查准率和查全率。二.查准率、查全率1.定义设查准率Precision与查全率Recall分别定义了...

2019-11-07 18:53:02 1586

原创最小二乘法,最大似然估计什么情况下统一

机器学习中,线性回归算法用到最小二乘法,逻辑回归算法用到最大似然估计,在推导梯度的过程中,发现结果一样,这是为何呢?一.最小二乘法1.基本思想2.作用3.如何求解最小二乘法二.最大似然估计1.概念2.似然估计的思想是3.如何求解最大似然估计三.最小二乘法和最大似然估计的联系和区别一.最小二乘法对于最小二乘法，当从模型总体随机抽取n组样本观测值后，最合理的参数应该使得模...

2019-11-07 17:51:09 2489

原创过拟合,正则化,特征值,特征向量一些知识点

一.过拟合1. 概念2.判断方法3.产生原因4.解决方案二.正则化的两种形式1.公式2.特点(区别)三.特征值,特征向量1.公式2.具体解释一.过拟合1. 概念过拟合是指为了得到一致假设而使假设变得过度严格。2.判断方法一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。3.产生原因...

2019-11-06 18:49:13 1312

原创机器学习之算法-梯度下降画图

梯度下降损失函数公式:转换为矩阵形式为:用到的代码:import numpy as npimport os#画图%matplotlib inlineimport matplotlib.pyplot as plt#随机种子np.random.seed(42) #西瓜,绿豆无所谓多少#保存图像PROJECT_ROOT_DIT = "."MODEL_ID = "...

2019-11-05 18:29:01 1901

原创机器学习基础知识

机器学习定义为了解决任务T,设计一段程序,从经验E中学习,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在处理T时的性能得到提升机器学习基本流程1.特征表示2.选择模型3.训练模型4.模型评估机器学习方法的三要素1.模型2.策略3.算法分类1.有监督学习1.1 分类 (样本标签属于离散变量)生成模型联合概率分布: P(X=a and Y=b)边缘概率...

2019-11-04 19:07:15 103