机器学习算法
文章平均质量分 92
zhfplay
法国索邦集团贡比涅技术大学,审慎可解释分类器博士在读。
展开
-
逻辑回归(对数几率回归,Logistic Regression)
什么是逻辑回归?逻辑回归的实质是事件发生的概率除以事件不发生的概率后取对数。这种变换,将自变量和因变量的关系变成了线性的。逻辑回归经常被用于二分类问题。当然,它也是可以应用与多分类问题的。下面我们一步一步来看逻辑回归的数学推导。逻辑回归的主要思想首先,我们定义样本xxx的类后验概率估计:p(y=1∣x)p(y=1|x)p(y=1∣x) 和 p(y=0∣x)p(y=0|x)p(y=0∣x)则...原创 2019-02-01 00:13:50 · 2231 阅读 · 0 评论 -
详解PCA
详解PCA一、PCA简介PCA(Principal component analysis,主成分分析)算法是一种基于多变量的降维技术,主要用于降维、可视化、去相关、分类、确定潜在因子、压缩和去噪音等方面。是特征工程中不可缺少的一部分,有利于我们构建更加适合模型的特征。二、从二维的角度直观理解PCA假设我们拥有样本矩阵XXX, 从点图来看,数据似乎含有某种线性结构。我们沿着这条线性结构(...原创 2019-09-13 20:09:18 · 540 阅读 · 0 评论 -
贝叶斯决策理论
贝叶斯决策理论一、 简介假设我们有一个样本(特征向量),用XXX表示。我们的总体被分为ggg个类别,记为wk(k=1,…g)w_k (k=1,\dots g)wk(k=1,…g).决策准则是一个函数,记为δ:Rp→A\delta:\mathbb{R}^p \to \mathcal Aδ:Rp→A,其中A={a1,…,ac}\mathcal A = \{a_1,\dots,a_c\}A={...原创 2019-05-18 20:45:36 · 945 阅读 · 0 评论 -
Bagging与随机森林
BootstrapBootstrap方法在集成学习方法中起到了很重要的作用。用一句话概括Bootstrap就是有放回的抽样。假设有mmm个样本组成的数据集DDD,又放回地抽样mmm次得到采样集D′D^{'}D′.显然DDD中有些样本会重复出现在D′D^{'}D′中,也有些样本不会出现在D′D^{'}D′中。样本在mmm次采样中始终不被采到...原创 2019-03-15 21:45:09 · 120 阅读 · 0 评论 -
Decision Tree续:剪枝和缺失值处理
声明:以下内容整理自周志华教授的《机器学习》,在此表达诚挚的敬意!剪枝处理目的:应对过拟合问题。如果一棵树的分支过多,意味着模型太复杂,会导致过拟合问题。也就是说训练集本身的一些特点被当作所有数据都具有的一般性质而导致过拟合。预剪枝:在决策树生成过程中,对每个节点在划分前先进行估计。若当前结点的划分不能带来决策树泛化能力的提升,则停止划分并将当前结点标记为叶节点。后剪枝:先从训练集...原创 2019-02-27 03:52:04 · 260 阅读 · 0 评论 -
Decision tree(决策树)
声明:以下内容整理自周志华教授的《机器学习》,在此表达诚挚的敬意!概念介绍决策树是一种常用的机器学习算法,可用于分类问题,也可以应用与回归问题。其思想是非常简单的,我们把数据想象成样本空间中的一个个点,决策树的任务就是学习如何选择特征对这个空间进行分割。分割出来的一块(在决策树中对应于一个叶子结点)就代表“某个类别的子集”(可能不纯)。当新的数据放入到这个空间,它落入到那一块,我们就知道他是...原创 2019-02-26 05:21:30 · 164 阅读 · 0 评论 -
Naive Bayes(朴素贝叶斯)
之前的LDA的推导其实已经涵盖了LDA,QDA和朴素贝叶斯的内容,但是今天还是想借助周志华教授的西瓜书来单独梳理一下朴素贝叶斯算法。开始之前,我们需要了解一些贝叶斯决策理论的内容。贝叶斯决策理论贝叶斯决策理论是概率框架下实施决策的基本方法。对于分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。假设我们的任务中有KKK个类别,Y={...原创 2019-02-20 00:12:03 · 253 阅读 · 0 评论 -
KNN(K近邻算法)
算法原理KNN可以说是最好理解的分类算法了(当然也可以应用于回归问题),并且KNN没有显式的学习过程,被称为是一种“懒惰学习方法”。它的基本思想是将想要进行分类的测试实例丢入训练实例的特征空间,然后找到离测试实例最近的K个训练实例,通过“投票”,返回K个样本中出现次数最多的标签。如何刻画“近”机器学习领域有很多用来刻画两个向量距离的指标,这里我们介绍四个最常用的。欧几里得距离:d12=∑...原创 2019-02-14 04:08:27 · 490 阅读 · 0 评论 -
LDA续:LDA之于二分类,QDA
在文章LDA(线性判别分析,Linear Discriminant Analysis)中,我们已经从贝叶斯理论的角度推导了LDA。现在我们来看LDA是如何应用于二分类问题的。两个类别的对数几率和逻辑回归一样,我们可以通过求两个类别的对数几率来判断当前数据属于哪个类别。logP(Y=1∣X=x)P(Y=0∣X=x)=logP1(x)P0(x)+logπ1π0=logπ1π0−12(μ1+μ0...原创 2019-02-13 20:40:36 · 2710 阅读 · 2 评论 -
LDA(线性判别分析,Linear Discriminant Analysis)
读完周志华教授的《机器学习》中的线性判别分析章节,他从LDA实现的效果角度对其进行了推导:类间间距要尽可能大,类内间距尽可能小的基本思想通过拉格朗日乘子法可以简单解出想要的结果。但是在章节的最后,教授提到:LDA可以从贝叶斯决策理论的角度来阐释,并可证明,当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类。今天,我们从贝叶斯理论的角度来阐释一回神奇的LDA.贝叶斯定理我们先...原创 2019-02-08 23:48:26 · 1831 阅读 · 0 评论 -
线性回归(Linear Regression)
线性回归简介在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。[百度百科]线性回归可以说是最简单的模型了,经常被用于连续型变量的预测问题。如:某地区的玉米产量,某个公司的营收等。最小二乘法1最小二乘法(又称最小平方法)是一种数学优化技...原创 2019-02-02 23:03:43 · 1178 阅读 · 0 评论 -
详解PCA(二)
一、主成分的个数上一篇文章《详解PCA》我们已经分析了如何计算各个成分的方向,并且能够将原样本矩阵投影到这个新的空间。但是,PCA的主要目的是降维,那么我们必须要面对的问题是:要选择几个主成分?当然我们可以用交叉验证去选取合适的主成分个数。然而,有没有更加值观的、快速的、简单的方法呢?答案是,有的!1、特征值的下降速率如果我们将协方差矩阵所有的特征值按从大到小的顺序进行排列,并且显示在一张柱...原创 2019-09-18 04:27:41 · 303 阅读 · 0 评论