机器学习
文章平均质量分 90
Yoangh
奋斗的小程序猿
展开
-
线性回归最小二乘法和梯度下降法
问题描述首先我们定义问题,线性回归要解决的问题就是根据给出的数据学习出一个线性模型。 例如我们最常说的身高和体重的关系,以及房屋面积和房价的关系,这里给出一个瑞典汽车保险数据集 数据集 可以直接复制出来用 两列分别表示 索赔要求数量 对所有索赔的总赔付,以千瑞典克朗计 数据前五行108 392,519 46,213 15,7124 422,240 119,4我们按照这个数据原创 2017-04-07 17:25:44 · 16395 阅读 · 1 评论 -
机器学习基础--决策树
决策树是很基础很经典的一个分类方法,基本上很多工业中很使用且常用的算法基础都是决策树,比如boost,GBDT,CART(分类回归树),我们后需会慢慢分析,决策时定义如下: 决策树:决策树模型是一种描述对实例进行分类的树形结构,其算法思想是分治法,由节点(node)和有向边组成,节点分两种类型,内部节点和叶子节点,内部节点标示一个特征或者树形,叶子节点表示一个类。 比如下面就是一个根据西瓜一些特原创 2017-08-28 11:30:02 · 962 阅读 · 0 评论 -
boosting增强学习
boost是通过组合多个弱基学习器,弱学习器定义是泛化性能弱,略优于随机猜测的学习器,通过组合多个若学习器来得到一个强泛化能力的学习器(三个臭皮匠赛过诸葛亮)。根据单个学习器之间是强依赖以及不能串行序列化的学习代表算法是AdaBoost,另一种相反的方法是Bagging或者随机森林(Random Forest)adaboost讲解基本上上面讲解的非常详细,我这里说一点我的理解,boost首先跟决策树原创 2017-08-28 17:01:39 · 1162 阅读 · 0 评论 -
机器学习基础--贝叶斯分类器
单纯的贝叶斯分类器很简单,基本上就是一个贝叶斯公式,要理解透彻贝叶斯分类器需要搞清楚两个概念似然函数基本上维基百科讲的很清楚,我这里在重复一下,可以直接去维基百科看 在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统原创 2017-08-31 15:28:32 · 929 阅读 · 2 评论 -
逻辑回归
继续机器学习系列基础算法,逻辑回归定义问题首先我们依然是定义问题,逻辑回归是解决分类问题,而且是基本的二分类问题,比如经典的垃圾邮件判定,根据疾病的特征预测死亡率。比如现在我给出这样一个问题,基于邮件的两个特征值去判定邮件是不是为垃圾邮件,根据数据画出的分布图如下。蓝色表示不是垃圾邮件,红色表示是垃圾邮件,我们要做的是学习去拟合一个分类决策边界,然后就能根据这个模型预测。 逻辑回归分布设X是连续的原创 2017-04-15 21:04:53 · 3295 阅读 · 0 评论 -
线性回归多重共线性优化
问题引入之前分析了线性回归问题的解法,最小二乘回归法,但是对于大多数的实际问题,由于我们要用有限的观测值去估计模型的分布,比如在之前讲线性回归中的例子,给出的样例有100对,而我们建立的模型是一条直线,我们都知道两点确定一条直线,这里有100个点,这种称作过度确定估计,同时很多样例由于各种原因本身存在误差,另一个方面是特征之间相关性很大,说白了就是两个特征之间存在关系,本身可以用一个变量来表示,这样原创 2017-09-12 18:33:49 · 3425 阅读 · 0 评论