![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
遇见更好的自己
非淡泊无以明志,非宁静无以致远
展开
-
MLE-MAP-Bayes模型
ML-最大似然估计MAP-最大后验估计贝叶斯估计三者的关系及区别(本篇博客来自李文哲老师的微课,转载请标明出处http://www.cnblogs.com/little-YTMM/p/5399532.html ) 一。机器学习 核心思想是从past experience中学习出规则,从而对新的事物进行预测。对于监督学习来说,有用的样本数目越多,训练越准确。用下图来表示机器学习的过程及包含的知识:...转载 2018-05-03 17:39:20 · 426 阅读 · 0 评论 -
机器学习基石-Regularization
大纲Regularized Hypothesis Set1 Regularization我们做regularization的目的就是从高维的假设空间倒退回低维的假设空间2 Stepping Back as Constraint我们从高维到低维倒退,可以将高阶部分的权重置为0,这样相当于在原假设的基础上加上了约束3 Regression with Looser Constraint刚刚我们讨论的限原创 2017-11-23 19:38:18 · 377 阅读 · 0 评论 -
机器学习基石-Hazard of Overfitting
大纲What is OverfittingBad Generation and Overfitting 通过图像分析,我们可以知道如果我们取比较大的dVCd_{VC},这时候的模型复杂度很高,EinE_{in}小,EoutE_{out}大,这时候Eout−EintE_{out}-E_{int}很大,我们称之为Bad Generation当dVC=d∗VCd_{VC} = d_{VC}^*向dV原创 2017-11-23 11:18:31 · 337 阅读 · 0 评论 -
机器学习基石-Nonlinear Transformation
大纲Quadratic Hypotheses线性模型虽然简单,dVCd_VC很小,Ein≈EoutE_{in} \approx E_{out},但是对于某些线性不可分的数据,会导致EinE_{in}太大,那这样的分类器效果也不是很好。我们如何打破线性模型的限制呢?Circular Separable虽然上面的数据点线性不可分,但是他可以用一个圆圈分开,我们从这里得到启发,是否我们可以设计Circul原创 2017-11-22 19:52:10 · 479 阅读 · 0 评论 -
机器学习基石-Types of Learning
课程大纲Learning with Different Output Space YY按照输出空间的类型,我们可以把机器学习问题分为四类binary classification:y={−1.+1}y = \{-1.+1\},比如垃圾邮件分类问题multiclass classification:y={1,2,...K}y = \{1,2,...K\},比如硬币识别问题regression:y原创 2017-11-16 20:27:22 · 306 阅读 · 0 评论 -
机器学习基石-Learning to Answer Yes/No
课程大纲Perceptron Hypothesis Set1.Hypothesis的线性表示x=(x1,x2,...xd)x = (x_1,x_2,...x_d)y={+1,−1}y = \{+1,-1\}h(x)=sign((∑i=1dwixi)−thershold)h(x) = sign((\sum_{i=1}^dw_ix_i)-thershold)2.Hypothesis的向量表示h(x原创 2017-11-16 17:30:28 · 297 阅读 · 0 评论 -
机器学习基石-The learning problem
课程大纲What is Machine Learning1.定义机器从数据中总结经验,从数据中找出某种规律或者模型,并用它来解决实际问题。 2.机器学习的应用场景存在隐含的模式可以学习,也就是说可以通过学习可以提升表现度量没有程式化的定义,或者定义问题很难,难以使用普通编程问题来解决有大量可供学习的数据Components of Machine Learning基本的符号约定input:原创 2017-11-16 11:20:15 · 285 阅读 · 0 评论 -
机器学习技法-Linear Support Vector Machine
大纲Large-Margin Separating Hyperplane由于PLA算法的随机性,可能得到多条分割超平面,那么那条是最好的呢? 直觉告诉我们,最右边的是最好的。为什么呢? 先给个简单解释,一般情况下,训练样本外的测量数据应该分布在训练样本附近,但与训练样本的位置有一些偏差。若要保证对未知的测量数据也能进行正确分类,最好让分类直线距离正类负类的点都有一定的距离。这样能让每个样本点附近原创 2017-11-15 19:28:52 · 1075 阅读 · 0 评论 -
机器学习基石-Logistic Regression
大纲Logistic Regression例子一般的二分类问题,比如说是否患有心脏病软性二分类问题,这个值接近1,表示患病的可能性越大,越接近0,表示患病的可能性越小。Soft Binary Classification对于软性二分类问题,理想的数据是分布在[0,1]之间的具体值,但是实际中的数据只可能是0或者1,我们可以把实际中的数据看成是理想数据加上了噪声的影响。Logistic Hypoth原创 2017-11-20 19:09:32 · 215 阅读 · 0 评论 -
机器学习基石-Linear Model for Classification
大纲Linear Models for Binary Classification1 Linear Models Revisited通过上图,我们发现,linear regression和logistic regression的损失函数都是凸函数,都可以方便的求出最小值对应的解,而linear classification的损失函数不易优化,所以我们能否利用linear regression和log原创 2017-11-21 15:40:05 · 548 阅读 · 0 评论 -
机器学习技法-Blending and Bagging
大纲上节课我们主要介绍了Support Vector Regression,将kernel model引入到regression中。首先,通过将ridge regression和representer theorem结合起来,得到kernel ridge regression。但是其解是dense的,即不部分不为零。为了得到sparse解,我们将regularized tube error和Lagr原创 2017-12-14 15:16:24 · 663 阅读 · 0 评论 -
机器学习基石-Validation
大纲Model Selection Problem1 Model Selection Problem在机器学习建立模型的过程中有很多选择,对于简单的二分类问题我们的目标是选择最好的搭配,建立好模型,得到一个好的gg,使Eout(g)E_{out}(g)最小假设有M个模型,对应有H1,H2,⋯,HMH_1,H_2,⋯,H_M,即有M个hypothesis set,演算法为A1,A2,⋯,AMA_1,A原创 2017-11-27 15:35:39 · 506 阅读 · 0 评论 -
机器学习基石-Three Learning Principles
大纲Occam’s RazorSimple Model简单的假设是指包含更少的参数简单的模型是指包含更少的假设简单的模型通常意味着简单的假设Simple is Better那为什么简单的模型更好呢?下面从哲学的角度简单解释一下。机器学习的目的是“找规律”,即分析数据的特征,总结出规律性的东西出来。假设现在有一堆没有规律的杂乱的数据需要分类,要找到一个模型,让它的EinE_{in}=0,是很难原创 2017-11-27 17:17:08 · 223 阅读 · 0 评论 -
机器学习技法-Gradient Boosted Decision Tree
大纲上节课我们主要介绍了Random Forest算法模型。Random Forest就是通过bagging的方式将许多不同的decision tree组合起来。除此之外,在decision tree中加入了各种随机性和多样性,比如不同特征的线性组合等。RF还可以使用OOB样本进行self-validation,而且可以通过permutation test进行feature selection。本节原创 2017-12-18 11:50:14 · 1159 阅读 · 0 评论 -
机器学习技法-Random Forest
大纲上节课我们主要介绍了Decision Tree模型。Decision Tree算法的核心是通过递归的方式,将数据集不断进行切割,得到子分支,最终形成数的结构。C&RT算法是决策树比较简单和常用的一种算法,其切割的标准是根据纯度来进行,每次切割都是为了让分支内部纯度最大。最终,决策树不同的分支得到不同的gt(x)g_t(x)(即树的叶子,C&RT算法中,gt(x)g_t(x)是常数)。本节课将介绍原创 2017-12-16 21:57:34 · 564 阅读 · 0 评论 -
机器学习技法-Decision Tree
大纲上节课我们主要介绍了Adaptive Boosting。AdaBoost演算法通过调整每笔资料的权重,得到不同的hypotheses,然后将不同的hypothesis乘以不同的系数α进行线性组合。这种演算法的优点是,即使底层的演算法g不是特别好(只要比乱选好点),经过多次迭代后算法模型会越来越好,起到了boost提升的效果。本节课将在此基础上介绍一种新的aggregation算法:决策树(Dec原创 2017-12-15 18:31:20 · 1182 阅读 · 0 评论 -
机器学习技法-Adaptive Boosting
大纲上节课我们主要开始介绍Aggregation Models,目的是将不同的hypothesis得到的gtg_t集合起来,利用集体智慧得到更好的预测模型G。首先我们介绍了Blending,Blending是将已存在的所有gtg_t结合起来,可以是uniformly,linearly,或者non-linearly组合形式。然后,我们讨论了在没有那么多gt的情况下,使用bootstrap方式,从已有数原创 2017-12-15 15:38:48 · 1046 阅读 · 0 评论 -
机器学习技法-Kernel Logistic Regression
大纲上节课我们主要介绍了Soft-Margin SVM,即如果允许有分类错误的点存在,那么在原来的Hard-Margin SVM中添加新的惩罚因子C,修正原来的公式,得到新的αn\alpha_n值。最终的到的αn\alpha_n有个上界,上界就是C。Soft-Margin SVM权衡了large-margin和error point之前的关系,目的是在尽可能犯更少错误的前提下,得到最大分类边界。本节原创 2017-12-07 15:38:15 · 1707 阅读 · 0 评论 -
机器学习基石-Dual Support Vector Machine
上节课我们主要介绍了线性支持向量机(Linear Support Vector Machine)。Linear SVM的目标是找出最“胖”的分割线进行正负类的分离,方法是使用二次规划来求出分类线。本节课将从另一个方面入手,研究对偶支持向量机(Dual Support Vector Machine),尝试从新的角度计算得出分类线,推广SVM的应用范围。大纲Motivation of Dual SVM1原创 2017-12-03 11:39:39 · 652 阅读 · 0 评论 -
机器学习技法-Kernel Support Vector Machine
大纲 上节课我们主要介绍了SVM的对偶形式,即dual SVM。Dual SVM也是一个二次规划问题,可以用QP来进行求解。之所以要推导SVM的对偶形式是因为:首先,它展示了SVM的几何意义;然后,从计算上,求解过程“好像”与所在维度d̂ \hat{d}无关,规避了d̂ \hat{d} 很大时难以求解的情况。但是,上节课的最后,我们也提到dual SVM的计算过程其实跟d̂ \hat{d} 还是有原创 2017-12-04 19:18:06 · 913 阅读 · 0 评论 -
机器学习技法-Soft-Margin Support Vector Machine
大纲上节课我们主要介绍了Kernel SVM。先将特征转换和计算内积这两个步骤合并起来,简化计算、提高计算速度,再用Dual SVM的求解方法来解决。Kernel SVM不仅能解决简单的线性分类问题,也可以求解非常复杂甚至是无限多维的分类问题,关键在于核函数的选择,例如线性核函数、多项式核函数和高斯核函数等等。但是,我们之前讲的这些方法都是Hard-Margin SVM,即必须将所有的样本都分类正确原创 2017-12-05 16:38:47 · 580 阅读 · 0 评论 -
机器学习基石-Support Vector Regression
大纲上节课我们主要介绍了Kernel Logistic Regression,讨论如何把SVM的技巧应用在soft-binary classification上。方法是使用2-level learning,先利用SVM得到参数b和w,然后再用通用的logistic regression优化算法,通过迭代优化,对参数b和w进行微调,得到最佳解。然后,也介绍了可以通过Representer Theore原创 2017-12-09 16:21:03 · 687 阅读 · 0 评论 -
机器学习基石-Linear Regression
大纲Linear Regression Problem当y∈R时y \in R时,我们就成为机器学习问题为回归问题1 Linear Regression Hypothesish(x)=wTxh(x) = w^Tx2 Illustration of Linear Regression 线性回归问题就是在空间中,寻找一个线或者超平面,满足点到超平面拥有最小的误差3 The Error Measure原创 2017-11-20 15:19:55 · 372 阅读 · 0 评论 -
机器学习基石-Noise and Error
大纲Noise and Probabilistic Target以前的VC Bound在没有noise的条件下是成立的,但如果引入noise,是否还依旧成立?Probabilistic Marbles接下来我们看在引入noise之后的情况就像以前的抽球的例子,如果数据没有noise,我们称为确定性颜色的球,,如果数据有noise,那么球的颜色就是不确定的啦。我们可以用概率分布来表示球的颜色p(y/x原创 2017-11-19 21:14:36 · 504 阅读 · 0 评论 -
提升树
提升树 提升树是以决策树为弱分类器的提升方法,通常使用CART树。提升树被认为是统计学习中性能最好的方法之一。提升树模型提升树方法实际采用:加法模型 + 前向分布算法 + CART树(基函数)。在Adaboost的例子中看到的弱分类器xv,可以看做是由一个根结点直接连接两个叶结点的简单决策树,即所谓的决策树桩。提升树模型可以表示为决策树的加法模型:原创 2017-10-07 21:27:13 · 442 阅读 · 0 评论 -
加法模型与前向分布算法
加法模型和前向分布算法 如下图所示的便是一个加法模型 其中,称为基函数,称为基函数的参数,称为基函数的系数。 在给定训练数据及损失函数的条件下,学习加法模型成为经验风险极小化问题,即损失函数极小化问题: 随后,该问题可以作如此简化:从前向后,每一步只学习一个基函数及其系数,逐步逼近上式,即:每步只优原创 2017-10-07 20:37:07 · 7453 阅读 · 5 评论 -
决策树详解(-)
决策树学习基本算法:输入:训练集 D=(x1,y1),(x2,y2)......(xm,ym)D={(x_1,y_1),(x_2,y_2)......(x_m,y_m)}; 输出:属性集 A=a1,a2...adA={a_1,a_2...a_d}; 过程:函数 TreeGenerate(D,A)TreeGenerate(D,A);生成节点nodenode;ifDif D 中样本全属于同一类别原创 2017-09-23 21:00:22 · 778 阅读 · 0 评论 -
决策树详解(二)
1 CART算法CART 是在给定输入X条件下输出随机变量Y的条件概率分布的学习方法。CART二分每个特征(包括标签特征以及连续特征),经过最优二分特征及其最优二分特征值的选择、切分,二叉树生成,剪枝来实现CART算法。对于回归CART树选择误差平方和准则、对于分类CART树选择基尼系数准则进行特征选择,并递归调用构建二叉树过程生成CART树。 决策树的经典算法包括ID3、C4.5原创 2017-09-23 21:03:33 · 816 阅读 · 0 评论 -
混合拉普拉斯
作者:桂。时间:2017-03-21 07:25:17链接:http://www.cnblogs.com/xingshansi/p/6592599.html 前言本文为曲线拟合与分布拟合系列的一部分,主要讲解混合拉普拉斯分布(Laplace Mixture Model,LMM)。拉普拉斯也是常用的统计概率模型之一,网上关于混合高斯模型(GMM)的例子很多,转载 2017-09-04 17:20:07 · 1889 阅读 · 2 评论 -
mac上安装xgboost
转载自 https://easonlv.github.io/2017/03/24/Mac%E7%B3%BB%E7%BB%9F%E5%AE%89%E8%A3%85Xgboost/1.安装 HomebrewHomebrew是Mac系统下非常优秀的包管理工具,相当于Ubuntu的apt-get,安装命令:1/usr/bin/ruby -e "$(curl转载 2017-06-20 11:08:27 · 564 阅读 · 0 评论 -
ROC和AUC的理解
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有preci转载 2017-10-28 20:21:17 · 2692 阅读 · 1 评论 -
偏差-方差分解
偏差-方差分解原创 2017-06-19 21:11:52 · 1422 阅读 · 0 评论 -
随机森林详解
袋装(Bootstrap Aggregating——Bagging)在统计学中,Bootstrap 是依靠替换随机采样的任意试验或度量。我们从上文可以看见,决策树会受到高方差的困扰。这意味着如果我们把训练数据随机分成两部分,并且给二者都安置一个决策树,我们得到的结果可能就会相当不同。Bootstrap 聚集,或者叫做袋装,是减少统计学习方法的方差的通用过程。转载 2017-10-28 20:48:09 · 5106 阅读 · 0 评论 -
XgBoost详解
Tree Ensemble参数对应树的结构,以及每个叶子节点上的预测分数如何学习参数定义合理的目标函数,然后尝试优化目标函数 我们可以把模型定义成 yi^=∑Kk=1fk(xi)\hat{y_i} = \sum_{k=1}^Kf_k(x_i) fk∈Ff_k \in F 因此目标函数可以写为Obj(Θ)=∑ni=1l(yi^,yi)+∑Kk=1Ω(fk)Obj(\Theta) = \s原创 2017-11-14 19:34:06 · 481 阅读 · 0 评论 -
机器学习基石-The VC Dimension
大纲Definition of VC dimension1 回顾首先,我们知道如果一个假设空间H有break point k,那么它的成长函数是有界的,它的上界称为Bound function。根据数学归纳法,Bound function也是有界的,且上界为Nk−1。从下面的表格可以看出,O(Nk−1)O(N^{k-1})比B(N,k)松弛很多。 根据上节课的推导,VC Bound可以转化为 如果原创 2017-11-19 14:55:57 · 5685 阅读 · 1 评论 -
机器学习基石-The theory of generation
大纲Restriction of Break Point我们发现,当N>kN>k时,break point k限制了mH(N)m_H(N)最大值的大小,也就是说,影响mH(N)m_H(N)大小的因素有两个训练数据DD的大小break point k(不同的k代表不同的假设)那么,如果给定N和k,能够证明其mH(N)m_H(N)的最大值的上界是多项式的,则根据霍夫丁不等式,就能用mH(N)m_H原创 2017-11-18 22:00:00 · 453 阅读 · 0 评论 -
机器学习基石-Training versus Testing
大纲Recap and Preview下图是到目前为止,我们所能了解到的机器学习的基本流程该流程图说明,用于训练的训练数据DD和用于测试演算法所选择的最好的假设gg的数据都来自同一分布,并且|H|\vert{H}\vert是有限的,训练数据DD应该足够大,根据Hoeffding不等式,出现Bad Sample的几率很小,即Ein(h)≈Eout(h)E_{in}(h) \approx E_{out}原创 2017-11-18 19:30:30 · 431 阅读 · 0 评论 -
机器学习基石-Feasibility of Learning
大纲Learning is ImpossibleNo Free Lunch Theory假设有8个hypothesis,这8个hypothesis在D上,对5个训练样本的分类效果效果都完全正确。但是在另外3个测试数据上,不同的hypothesis表现有好有坏。在已知数据D上,g≈f;但是在D以外的未知数据上,g≈f不一定成立。而机器学习目的,恰恰是希望我们选择的模型能在未知数据上的预测与真实结果是一原创 2017-11-18 10:05:03 · 466 阅读 · 0 评论 -
原始GBDT推导
GBDT采用的是数值优化的思维, 用的最速下降法去求解Loss Function的最优解, 其中用CART决策树去拟合负梯度, 用牛顿法求步长.XGboost用的解析的思维, 对Loss Function展开到二阶近似, 求得解析解, 用解析解作为Gain来建立决策树, 使得Loss Function最优.原创 2017-10-16 16:45:40 · 3202 阅读 · 1 评论 -
Xgboost原理详解
作者:陈天奇,毕业于上海交通大学ACM班,现就读于华盛顿大学,从事大规模机器学习研究。注解:truth4sex 编者按:本文是对开源xgboost库理论层面的介绍,在陈天奇原文《梯度提升法和Boosted Tree》的基础上,做了如下注解:1)章节划分;2)注解和参考链接(以蓝色和红色字体标注)。备注:图片可点击查看清晰版。1. 前言应 @龙星镖局 兄邀请写这篇文章。转载 2017-10-16 15:41:36 · 3611 阅读 · 1 评论