机器学习
文章平均质量分 95
详解机器学习中常用算法,包括但不限于LR、SVM、C4.5、CART...
谓之小一
至大之内,谓之大一!至小之内,谓之小一!
展开
-
机器学习降维之奇异值分解(SVD)
奇异值分解(Singular Value Decompostion, SVD) 是在机器学习领域广泛应用的算法,不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域,是很多机器学习算法的基石。本篇文章对SVD原理做主要讲解,在学习之前,确保你已经熟悉线性代数中的基本知识,包括特征值、特征向量、相似矩阵相关知识点。如果不太熟悉的话,推荐阅读如下两篇文章,如何理解矩阵特征值?知...原创 2019-01-01 20:42:14 · 2574 阅读 · 0 评论 -
机器学习降维之主成分分析(PCA)
主成分分析(Principal components analysis, PCA) 是最重要的降维方法之一,在数据压缩、消除冗余和数据噪音消除等方面有广泛的应用。通常我们提到降维算法,最先想到的就是PCA,下面我们对PCA原理进行介绍。1. PCA思想PCA就是找出数据中最主要的方面,用数据中最重要的方面来代替原始数据。假如我们的数据集是n维的,共有m个数据(x1,x2,…,xm),我们将这...原创 2018-12-30 21:12:13 · 1601 阅读 · 1 评论 -
机器学习之Apriori算法
1.Apriori算法简介Apriori算法是常用于挖掘出数据关联规则的算法,能够发现事物数据库中频繁出现的数据集,这些联系构成的规则可帮助用户找出某些行为特征,以便进行企业决策。例如,某食品商店希望发现顾客的购买行为,通过购物篮分析得到大部分顾客会在一次购物中同时购买面包和牛奶,那么该商店便可以通过降价促销面包的同时提高面包和牛奶的销量。了解Apriori算法推导之前,我们先介绍一些基本概念...原创 2018-05-18 17:28:55 · 14433 阅读 · 0 评论 -
机器学习之最大期望(EM)算法
1.EM算法简介最大期望(Expectation Maximum)算法是一种迭代优化算法,其计算方法是每次迭代分为期望(E)步和最大(M)步。我们先看下最大期望算法能够解决什么样的问题。假如班级里有50个男生和50个女生,且男生站左,女生站右。我们假定男生和女生的身高分布分别服从正态分布。这时我们用极大似然法,分别通过这50个男生和50个女生的样本来估计这两个正态分布的参数,便可知道男女身...原创 2018-05-10 22:41:09 · 12788 阅读 · 4 评论 -
机器学习之朴素贝叶斯算法
1.朴素贝叶斯简介朴素贝叶斯(Naive Bayesian)算法能够根据数据加先验概率来估计后验概率,在垃圾邮件分类、文本分类、信用等级评定等多分类问题中得到广泛应用。对于多数的分类算法,比如决策树、KNN等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系。但朴素贝叶斯和多数分类算法都不同,朴素贝叶斯是生成算法,也就是先找出特征输出Y和特征X的联合分布P(X,Y)P(X,Y)P...原创 2018-05-15 23:05:49 · 529 阅读 · 0 评论 -
机器学习之K近邻(KNN)算法
1.KNN简介K近邻(K-Nearest Neighbors, KNN)算法既可处理分类问题,也可处理回归问题,其中分类和回归的主要区别在于最后做预测时的决策方式不同。KNN做分类预测时一般采用多数表决法,即训练集里和预测样本特征最近的K个样本,预测结果为里面有最多类别数的类别。KNN做回归预测时一般采用平均法,预测结果为最近的K个样本数据的平均值。其中KNN分类方法的思想对回归方法同样适用,...原创 2018-05-13 21:22:17 · 3407 阅读 · 0 评论 -
机器学习之K均值(K-Means)算法
1.K-Means简介K均值(K-Means)算法是无监督的聚类方法,实现起来比较简单,聚类效果也比较好,因此应用很广泛。K-Means算法针对不同应用场景,有不同方面的改进。我们从最传统的K-Means算法讲起,然后在此基础上介绍初始化质心优化K-Means++算法,距离计算优化Elkan K-Means算法和大样本情况下Mini Batch K-Means算法。K-Means算法的思想...原创 2018-05-12 17:50:41 · 9334 阅读 · 0 评论 -
机器学习之随机森林
1.随机森林简介随机森林(Random Forest)是一个非常灵活的机器学习方法,从市场营销到医疗保险有着众多的应用。例如用于市场营销对客户获取和存留建模或预测病人的疾病风险和易感性。随机森林能够用于分类和回归问题,可以处理大量特征,并能够帮助估计用于建模数据变量的重要性。我们先了解随机森林中森林和随机的概念。1.1集成学习集成学习是将多个模型进行组合来解决单一的预测问题。其原理...原创 2018-04-30 17:16:03 · 926 阅读 · 0 评论 -
机器学习之梯度提升决策树(GBDT)
1.GBDT算法简介GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来作为最终答案,我们根据其名字(Gradient Boosting Decision Tree)来展开推导过程。决策树(Decision Tree)我们已经不再陌生,在之前介绍到的机器学习之决策树(C4.5算法)、机器学习之分类与回归树(CA...原创 2018-05-02 16:16:06 · 23424 阅读 · 4 评论 -
机器学习之分类与回归树(CART)
1.分类与回归树简介分类与回归树的英文是Classfication And Regression Tree,缩写为CART。CART算法采用二分递归分割的技术将当前样本集分为两个子样本集,使得生成的每个非叶子节点都有两个分支。非叶子节点的特征取值为True和False,左分支取值为True,右分支取值为False,因此CART算法生成的决策树是结构简洁的二叉树。CART可以处理连续型变量和离散...原创 2018-04-25 16:23:57 · 1509 阅读 · 0 评论 -
机器学习之决策树(C4.5算法)
1.决策树简介我们已有如下所示数据集,特征属性包含天气、温度、湿度、风速,然后根据这些数据去分类或预测能否去打高尔夫球,针对此类问题你会怎么解决呢。 序号 天气 温度 湿度 风速 高尔夫 1 晴 炎热 高 弱 进行 2 晴 炎热 高 强 进行 3 阴 炎热 高 弱 取消 ...原创 2018-04-20 18:13:12 · 2760 阅读 · 0 评论 -
机器学习之自适应增强(Adaboost)
1.Adaboost简介Adaptive boosting(自适应增强)是一种迭代算法,其核心思想是针对同一个训练集训练不同的弱分类器,然后把这些弱分类器集合起来,构成一个强分类器,Adaboost可处理分类和回归问题。了解Adaboost算法之前,我们先学习下Boost(增强)和Adaptive(自适应)的概念。1.1集成学习之Boosting集成学习不是单独的机器学习方法,而是...原创 2018-05-07 09:52:52 · 9152 阅读 · 0 评论 -
机器学习之SVM支持向量机(二)
1.知识回顾机器学习之SVM支持向量机(一)中我们介绍了SVM损失函数、最大间隔分类、为什么SVM能形成最大间隔分类器、核函数、SVM中Gaussian Kernel的使用知识点。上文我们从Logistic Regression损失函数中推出SVM损失函数,本篇文章我们将更加直观的分析得到SVM损失函数、如何求解SVM对偶问题、如何解决outliers点,并且最终利用sklearn实现SVM。...原创 2018-04-06 20:19:03 · 579 阅读 · 0 评论 -
机器学习之SVM支持向量机(一)
我们思考这样一个问题,给两个标签,蓝色和红色点,数据有两个特征(x,y)。我们想要一个分类器,给定一对(x,y),能找到很好的分类边界,判断是蓝色点还是红色点。对于下图的数据,我们如何解决呢。本文通过引入Support Vector Machine(SVM)算法来详解此类问题。1.SVM损失函数针对前面介绍的机器学习之线性回归、机器学习之Logistic回归,我们已经了解Cost Fu...原创 2018-04-03 11:04:08 · 434 阅读 · 0 评论 -
机器学习之Logistic回归
1.Logistic回归简介线性回归能够找到一个假设函数来估计原函数,从而根据特征变量来得到假设值,但线性回归模型不能达到分类的效果。在线性回归的基础上,我们将假设值和概率结合得到分类器,达到分类的效果。虽然Logistic回归是回归模型,但在实际项目中我们经常用于分类问题。2.Sigmoid函数#plot sigmoid function import numpy as...原创 2018-03-29 09:37:44 · 492 阅读 · 2 评论 -
机器学习之线性回归
1.线性回归分析( Linear Regression Analysis)线性回归分析(Regression Analysis):其数据集是给定一个函数和他的一些坐标点,然后通过回归分析的算法,来估计原函数的模型,求得最符合这些数据集的函数解析式。然后我们就可以用来预估未知数据,输入一个自变量便会根据这个模型解析式输出因变量,这些自变量就是特征向量,因变量即为标签,而且标签的值是建立在连续范围...原创 2018-03-26 18:01:58 · 750 阅读 · 0 评论 -
机器学习知识体系
1.什么是机器学习 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。上述为百度百科定义,而在现实生活中,我们主要会碰到两类问题。一类是我们知道怎么去通过算法将输入转化为输出,通过学习此类...原创 2018-03-24 17:10:00 · 5822 阅读 · 3 评论