Machine Learning
文章平均质量分 91
机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问,同时它也是人工智能的核心,未来前景,令人期待。
一路前行1
这个作者很懒,什么都没留下…
展开
-
机器学习性能指标精确率、召回率、F1值、ROC、PRC与AUC
精确率、召回率、F1、AUC和ROC曲线都是评价模型好坏的指标,那么它们之间有什么不同,又有什么联系呢。下面让我们分别来看一下这几个指标分别是什么意思。针对一个二分类问题,将实例分成正类(postive)或者负类(negative)。但是实际中分类时,会出现四种情况.(1)若一个实例是正类并且被预测为正类,即为真正类(True Postive TP)(2)若一个实例是正类,但是被预原创 2017-10-15 16:47:21 · 11703 阅读 · 1 评论 -
机器学习中的正则化技术L0,L1与L2范数
使用机器学习算法过程中,如果太过于追求准确率,就可能会造成过拟合。使用正则化技术可以在一定程度上防止过拟合。首先来回顾一下过拟合的概念。过拟合简单来说就是对于当前的训练数据拟合程度过高以至于模型失去了泛化能力。下面是一个房屋预测的例子:左侧的图是欠拟合,即对于当前数据集的拟合程度不够,欠拟合的特征是在训练集和测试集上的准确率都不好。右边的为过拟合状态,过拟合对于当前数据拟合得太好了原创 2017-10-05 15:32:16 · 15668 阅读 · 4 评论 -
贝叶斯网络
贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络,而贝叶斯公式则是这个概率网络的基础。一个贝叶斯网络是一个有向无环图(Directed Acyclic Graph,DAG),由代表变量节点及连接这些节点有向边构成。节点代表随机变量,节点间的有向边代表了节点间的互相关系(由父节点指向其子节点),用条件概率进行表达关系强度,没有父节点的用先验概率进行信息表达。一个简单的贝叶斯网络如下:原创 2017-09-19 21:10:13 · 5057 阅读 · 1 评论 -
从最大似然到EM算法
机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光。 我希望自己能通俗地把它理解或者说明白,但是,EM这个问题感觉真的不太好用通俗的语言去说明白,因为它转载 2017-09-18 15:57:02 · 940 阅读 · 0 评论 -
聚类算法之层次聚类与密度聚类
一、层次聚类层次聚类方法对给定的数据集进行层次的分解,知道某种条件满足为止。层次聚类又可分为:凝聚的层次聚类:AGNES算法一种自底向上的策略,首先将每个对象做为一个簇,然后合并这些原子簇为越来愈大的簇,直到达到某个终结条件。AGNES算法最初将每个对象做为一个簇,然后这些簇根据某些准则被一步步地合并。两个簇间的距离由这两个不同簇中距离最近的数据点对的相似度来确定;聚类的合原创 2017-09-15 20:29:57 · 3429 阅读 · 0 评论 -
聚类算法之K-means算法与聚类算法衡量指标
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。聚类算法属于无监督学习,即事先不会给出标记信息,通过对无标记样本的学习来解释数据的内在性质及规律,为进一步的数据分析提供基础。一、K-means(k均值)算法 k-m原创 2017-09-10 20:54:27 · 25312 阅读 · 0 评论 -
XGBoost python调参指南
在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost in Python>,写的很好。因此打算翻译一下这篇文章,也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tun转载 2017-09-10 17:58:56 · 1298 阅读 · 0 评论 -
机器学习提升算法之Adaboost、GB、GBDT与XGBoost算法
一、Gradient boosting(GB) 梯度提升 提升是一个机器学习技术,可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中。如果每一步的弱预测模型生成都是一句损失函数 的梯度方向,则称之为梯度提升(Gradient boosting)。梯度提升算法首先给定一个目标损失函数,它的定义域是所有可行的若函数集合(基函数);提升算法通过迭代的选择一个负梯原创 2017-09-09 22:11:11 · 9953 阅读 · 0 评论 -
Bagging与随机森林
一、Bagging算法Bagging是并行集成学习方法最著名的代表,可以用来提高学习算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数。Bagging要求“不稳定”(不稳定是指数据集的小的变动能够使得分类结果的显著的变动)的分类方法。比如:决策树,神经网络算法。Bagging的基本流程为:1、首先采取随机采样(bootsrap),也原创 2017-09-04 22:20:58 · 2338 阅读 · 0 评论 -
决策树算法与剪枝处理
一、决策树算法 决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。 决策树算法的核心思想就是通过不断地决策来筛选出最终想要的结果,来看下面一个例子:上图是一个女孩相亲中确定见不见男方的过程,她先根据年龄筛选,年龄大于30 的不见,小于30的看长相;长相丑的不见,不丑的见……原创 2017-09-03 22:21:25 · 4152 阅读 · 0 评论 -
线性回归与岭回归python代码实现
一、标准线性回归 在线性回归中我们要求的参数为:详细的推导可以参见:http://blog.csdn.net/weiyongle1996/article/details/73727505所以代码实现主要就是实现上式,python代码如下:import numpy as npimport pandas as pdimport matplotlib.pyplo原创 2017-08-31 16:51:50 · 20821 阅读 · 8 评论 -
斯坦福大学公开课机器学习课程(Andrew Ng)十特征选择
课程概述:1.VC维2.模型选择3.特征选择一、VC维 对于一个模型来说,比如 logistic模型,如果有n 个feature,那么该模型会有 d=n+1个参数。虽然理论上说d个参数的取值都有无穷多个,使得模型集合无限大。但实际上,在计算机的表达中,比如每个参数都以64位Double型表示,那么共需要 64d位来表达这个模型集合,考虑到每个位有 0、1 两种原创 2017-08-26 21:17:36 · 1526 阅读 · 0 评论 -
斯坦福大学公开课机器学习课程(Andrew Ng)九经验风险最小化
课程概述:1.偏差/方差(Bias/variance)2.经验风险最小化(Empirical Risk Minization,ERM)3.联合界引理与Hoeffding不等式4.一致收敛(Uniform Convergence)一、偏差/方差 偏差与方差对应的仍然是过拟合与欠拟合的问题,本篇主要解决的问题就在于构建一个模型,对何时出现过拟合和欠拟合进行说明原创 2017-08-22 21:54:39 · 3244 阅读 · 0 评论 -
斯坦福大学公开课机器学习课程(Andrew Ng)八顺序最小优化算法
课程概要:1.核技法2.软间隔分类器3.SVM求解的序列最小化算法(SMO)4.SVM应用一.核技法回忆一下上篇中得到的简化的最优问题,,#1:定义函数ϕ(x)为向量之间的映射,一般是从低维映射到高维,比如在前面笔记中提到的房价和面积的关系问题中,可以定义ϕ为: 这样,就可以将#1 问题中目标函数中的内积的形式这样就达到了将低维空间上原创 2017-08-09 19:03:32 · 742 阅读 · 1 评论 -
斯坦福大学公开课机器学习课程(Andrew Ng)七最优间隔分类器
课程概要:1.最优间隔分类器2.原始/对偶问题3.svn的对偶问题 在上篇中,我们提到了函数间隔与几何间隔,这两个定义是 svm 的基本定义,因为svn比较复杂,这里先简要介绍一下svn的几个部分。首先是函数间隔与几何间隔,由它们引出最优间隔分类器;为了多快好的解决最优间隔分类器问题,使用了拉格朗日对偶性性质,于是,先要理解原始优化问题与对偶问题及它们在什么条件(KKT原创 2017-07-31 14:22:44 · 1367 阅读 · 0 评论 -
斯坦福大学公开课机器学习课程(Andrew Ng)六朴素贝叶斯算法
课程概要:原创 2017-07-28 08:16:02 · 3152 阅读 · 0 评论 -
斯坦福大学公开课机器学习课程(Andrew Ng)五生成学习算法
课程概要:1.生成学习算法(Generative learning algorithm)2.高斯判别分析(GDA,Gaussian Discriminant Analysis) 3.GDA与logistic模型的联系4.朴素贝叶斯(Naive Bayes) 5.拉普拉斯平滑(Laplace smoothing)一、生成学习算法两种学习算法的定原创 2017-07-16 22:35:38 · 2970 阅读 · 0 评论 -
斯坦福大学公开课机器学习课程(Andrew Ng)四牛顿方法与广义线性模型
本次课所讲主要内容:1、 牛顿方法:对Logistic模型进行拟合2、 指数分布族3、 广义线性模型(GLM):联系Logistic回归和最小二乘模型一、牛顿方法 牛顿方法与梯度下降法的功能一样,都是对解空间进行搜索的方法。假设有函数,需要找使=0的步骤:1) 给出一个的初始值2) 在作 的切原创 2017-07-11 13:25:39 · 1821 阅读 · 0 评论 -
斯坦福大学公开课机器学习课程(Andrew Ng)三欠拟合与过拟合
概要本节课的主要内容有:1、 局部加权回归:线性回归的变化版本2、 概率解释:另一种可能的对于线性回归的解释3、 Logistic回归: 基于2的分类算法,也是第一个要学的分类算法4、 感知器算法:原创 2017-07-07 15:50:17 · 2279 阅读 · 0 评论 -
斯坦福大学公开课机器学习课程(Andrew Ng)二监督学习应用 梯度下降
监督学习应用 梯度下降原创 2017-06-27 11:34:04 · 3245 阅读 · 2 评论 -
斯坦福大学公开课机器学习课程(Andrew Ng)第一讲机器学习动机与应用
============================================================================【课程综述】============================================================================第一课时: 机器学习的定义【 The Definition of Ma转载 2017-06-24 21:58:50 · 1048 阅读 · 0 评论