机器学习
文章平均质量分 69
上杉绘梨衣-
少年听雨歌楼上,红烛昏罗帐,壮年听雨客舟中,江阔云低,断雁叫西风。
而今听雨僧庐下,鬓已星星也,悲欢离合总无情,一任阶前,点滴到天明。
展开
-
准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure
机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。(注:相对来说,IR 的 ground truth 很多时候是一个 Ordered List, 而不是一个 Bool 类型的 Unordered Colle原创 2017-09-25 21:08:37 · 1347 阅读 · 0 评论 -
统计学习方法——模型的选择与评估(过拟合、泛化能力)
这是一些机器学习中用到的比较基本的概念监督学习的目的是找到一个输入输出映射(模型),使得这个模型不仅对训练数据有很好的拟合能力,对于未知数据,它也有很好的预测能力。这篇博客介绍选择和评估模型的标准。本篇博客一共有以下几个重点:训练误差与测试误差、泛化能力、过拟合。训练误差与测试误差训练误差是模型关于训练集的平均损失来表示:其中为训练集中数据的个数;损失函数在转载 2017-11-28 16:01:35 · 1536 阅读 · 1 评论 -
随机森林
一、决策树决策树是机器学习最基本的模型,在不考虑其他复杂情况下,我们可以用一句话来描述决策树:如果得分大于等于60分,那么你及格了。这是一个最最简单的决策树的模型,我们把及格和没及格分别附上标签,及格(1),没及格(0),那么得到的决策树是这样的但是我们几乎不会让计算机做这么简单的工作,我们把情况变得复杂一点引用别的文章的一个例子这是一张女孩对于不同条件的男性是转载 2017-11-28 16:07:51 · 737 阅读 · 1 评论 -
Bagging和Boosting概念以及区别
Bagging和Boosting 概念及区别 Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个性能更加强大的分类器,更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping,即自助法:它是一种有放回的抽样方法(可能抽到重复的样本)。1、Bagging (bootstrap aggregating)原创 2017-11-30 00:52:34 · 428 阅读 · 0 评论 -
关于感知学习模型机中空间任一点到超平面的距离公式的推导过程
关于感知学习模型机中空间任一点到超平面的距离公式的推导过程在感知机模型中,输入空间中任意一点 到超平面S的距离:其推导过程如下:转载 2017-12-08 16:44:24 · 767 阅读 · 0 评论 -
EM算法的两种理解角度
最近在学习机器学习这门课,目前学到了EM算法的部分。在网上看到了一些人比较好的理解。在此记录下来EM算法即“期望极大算法”。学过机器学习的朋友都知道EM算法分两步:E步求期望,M步求极大。但是期望是求谁的期望,极大是求谁的极大呢?这里面其实有两种解读角度。“通俗”角度通俗角度的话,求极大肯定是求似然函数的极大了,而且一般都是对数似然。我们一般解决模型参数求解问题,都是在给定数据的情转载 2017-12-04 20:58:55 · 554 阅读 · 0 评论 -
CART树剪枝的操作的理解
这里我就简单讲下CART剪枝的核心思想,纯属个人意见,如有不当,请指正。在《统计学习方法法》中已经提到了决策树的剪枝算法了,理所当然,我们是顺着书中提到的思路来理解下决策树剪枝的关键步骤。我们定义了该定义表示了决策树的损失函数。whaterver它是什么,现在有了损失函数这个衡量标准,并且假设我们已经根据training set生成了一棵复杂的决策树,且参数已知。算法该如何实现决策树的原创 2017-12-13 22:46:34 · 2260 阅读 · 0 评论 -
L0范式,L1范式,L2范式的简单理解
L0范数是指向量中非0的元素的个数。L1范数是指向量中各个元素绝对值之和。既然L0可以实现稀疏,为什么不用L0,而要用L1呢?个人理解一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。L2范数是指向量各元素的平方和然后求平方根原创 2017-12-18 21:18:56 · 9576 阅读 · 0 评论