★★分类&回归
文章平均质量分 90
算法理论的介绍,主要涉及传统的分类和回归算法
维格堂406小队
人天生都是软弱的,唯其软弱而犹能承担起苦难,才显出人的尊严。
展开
-
Boosting之GBDT源码分析
对数损失函数 LR中,求参数时用到了极大似然,即求得某些参数使得已知样本出现的概率最大。对于分类问题,训练集我们已知label,如果所有样本都预测准确,那么y^=y\hat{y}=yy^=y。即:y=0y=0y=0,P(Y∣X)P(Y|X)P(Y∣X)尽可能接近0y=1y=1y=1,P(Y∣X)P(Y|X)P(Y∣X)尽可能接近1则目标为:∏i=1N[P(Y=1∣X=xi)]yi[1−P(Y=0∣X=xi)]1−yi\prod_{i=1}^{N}\left[P\left(Y=1|X=x_{i原创 2021-05-18 20:36:29 · 356 阅读 · 0 评论 -
Boosting之GBDT原理
前面介绍了Adaboost的相关原理,实现,应用,本文主要介绍Boosting算法的另外一个重要算法:GBDT(Gradient Boosting Decison Tree)。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree),...原创 2018-05-24 14:22:56 · 814 阅读 · 1 评论 -
Boosting之Adaboost简单实现
《机器学习实战》第七章,Adaboost的实现。有两个问题: 1. 基分类器是用的是单决策树桩,选择最好的分类器是遍历所有可能,挑选加权误差最小的那个单决策树桩。实际应用应该选择普通CART树做基分类器,那么权重对基分类器的影响总不能遍历所有可能存在的决策树情况。这里的逻辑需要再确认 2. 如果基分类器的加权误差大于0.5,这里比较方式有大于和小于,所以不存在小于0.5的情况,如果存在小于0.5原创 2018-04-26 20:12:51 · 325 阅读 · 0 评论 -
Boosting之Adaboost应用
前面两篇笔记Boosting之Adaboost原理和Boosting之Adaboost简单实现主要介绍了Adaboost在二分类中的理论和简单实现,本文主要关注Python中Sklearn相关函数的调用,有空的话写写R的相关内容,主要参考资料是Sklearn的文档。 Python训练Adaboost分类模型 原理部分已经解释过,Adaboost模型可以看成加法模型,那么Adaboost的参数可以原创 2018-04-29 19:53:06 · 702 阅读 · 0 评论 -
Boosting之Adaboost原理
Boosting之Adaboost原理1 Boosting框架 Boosting可以看成多个不同的基分类器的线性加权和的形式,那么自然需要知道每个基分类器及其对应的权重,具体的算法逻辑见下图。 如上图所示,在boosting算法中每一个基分类器都依赖于前面已经生成的基分类器,所以Boosting是一种迭代的算法。根据基分类器迭代方式和权重的不同,Boosting可以分为...原创 2018-04-26 17:52:27 · 619 阅读 · 0 评论 -
Learning R---randomForest
随机森林据说工业中应用很广,正巧工作中也在尝试使用。 主要基于R语言函数包randomForest ,对参数设置以及相关内容做记录和总结。一、随机森林简介理论部分,有空好好学习下。完了,整理好。 二、函数简介1、randomForest主函数,随机森林算法实现分类和回归。该函数执行的是Breiman的随机森林算法(基于原来的Fortran代码)。也可以用以评估数据点之间的相似性。randomFo原创 2017-11-10 16:01:43 · 2404 阅读 · 0 评论 -
Ensemble Learning Intr
通过聚集多个分类器的预测来提高分类准确率的技术称为组合学习/集成学习(Ensemble Learning)。本文主要介绍相关概念,叙述几种常见集成学习模型的构造。 集成学习的种类集成学习中构建组合分类器的方法如下: 1、 通过处理训练数据集 根据某种抽样,对原始数据进行再抽样得到多个训练集。使用特定的学习算法对每个训练集建立一个分类器。 Bagging(基分类器通常是同一个,如决策树)原创 2018-03-12 14:54:44 · 1199 阅读 · 0 评论 -
Decison Tree
基本概念的定义、解释、总结。 相关概念1、信息量 只能通俗地讲下,随机变量XXX存在多个取值,如果一个事件发生概率为1,那么他一定会发生,完全没有信息量。概率越小的事件(取值)发生时,它所含的信息量越大。(参考统计学里的p-value,所谓事出反常必有妖)。可以想到信息量和事件发生的概率成正比。 定义:出现概率为p的消息所含的信息量。 I=−log(p)I=−l...原创 2018-04-07 18:07:00 · 220 阅读 · 0 评论 -
NaiveBayes-参数求解
knitr::opts_chunk$set(echo = TRUE) 朴素贝叶斯直观上倒是很容易理解,无非就是求后验概率最大化,但是损失函数、参数求解都是一知半解。本文以离散型朴素贝叶斯为例,做一些简单的探讨。 前置知识 主要是概率论的一些知识: 条件概率P(A|B)=P(AB)P(B)P(A|B)=P(AB)P(B)P\left( {A|B} \right)...原创 2018-03-15 17:09:11 · 804 阅读 · 0 评论 -
Bias-Variance
knitr::opts_chunk$set(echo = TRUE)看了蛮久的,各种各样的说法,把不同的阐述分别写下,以供自己参考Hastie-《统计学习导论 》《ISLR》是Hastie写的基于R的统计学习教材,网上有英文版本可以免费下载,简单总结其观点。 林轩田的《ML Foundation》中提到过NFL定理(No Free Lunch),即没有任何一种方法/模型能在各种数...原创 2018-03-10 13:21:19 · 644 阅读 · 0 评论 -
PLSA模型简介
knitr::opts_chunk$set(echo = TRUE)1、文档生成 对于某一篇特定的文章,其生成过程可以看做如下方式: 1 . 为这篇文章制造一个特定的doc_topic的骰子 2 . 先掷doc_topic骰子,产生一个主题 3 . 找到对应主题的topic_word骰子,投掷产生一个词 4 . 重复步骤2、3直至文档生成 2、符号标记1 . D...原创 2018-01-17 16:27:20 · 696 阅读 · 0 评论 -
EM算法之求解三硬币模型
看了好几天的EM算法,还是看的一头雾水。借由三硬币模型,尝试使用EM算法。 1、EM算法流程 1. E步:对完全数据的对数似然函数log(P(Y,Z|θ))log(P(Y,Z|θ))log (P(Y,Z|\theta ))求关于P(Z|Y,θ(i))P(Z|Y,θ(i))P(Z|Y,{\theta ^{(i)}})的数学期望。 EZ|Y,θ(i)[log(P(Y,Z...原创 2018-01-08 17:38:09 · 7438 阅读 · 8 评论 -
MDS多维尺度分析
挖坑,周末填!2017-11-16原创 2017-11-16 10:32:15 · 1030 阅读 · 0 评论 -
线性回归的概率解释及局部加权回归
看了吴恩达《机器学习》,发现了线性回归的概率解释,以及极大似然估计和LSM算法的等价性概率解释回归模型假设: Epsilon为误差项,并且服从正态分布。在给定x和Epsilon时,y也服从正态分布。 似然函数: x和y均为已知,方差固定,即theta为某一取值时,似然函数最大。 极大似然函数求解: 可见两个等价~这个转换的思维还是蛮有趣,记录下。局部加权回归与线性回归的差异原创 2017-06-08 21:39:31 · 669 阅读 · 0 评论 -
CS299读书笔记
第一集 2017-04-19背景知识:1、计算科学的知识数据结构:队列、栈、二叉树2、统计概率知识本科知识:期望、方差等3、线性代数方面矩阵、向量、特征向量等等相关资料网址http://cs229.stanford.edu基本介绍:1、监督学习(回归&分类)2、学习理论;3、无监督学习(聚类);4、强化学习;###########线代和概率统原创 2017-04-19 22:54:36 · 1883 阅读 · 0 评论 -
梯度下降和牛顿法的数学解释
看了ng梯度下降和牛顿法的内容,但是都是从直观意义上讲的。找了些资料,从数学方面给予更严谨的证明。预备知识(1) 泰勒展开式(2) 无穷小(3) 正定矩阵一个n阶的实对称矩阵M是正定的的条件是当且仅当对于所有的非零实系数向量z,都有zTMz> 0。其中zT表示z的转置。 无约束问题解的最优性条件(1) 目标函数(2) 局部最优解D是可行域 (3) 定义—下降方向可以理解为f在某一个定长的区间内单原创 2017-07-02 20:50:50 · 1225 阅读 · 0 评论 -
生成模型和判别模型
摘自李航《统计学习方法》监督学习的任务学习一个模型,应用这一模型,对给定的输入预测相应的输出。 这个模型一般的形式为决策函数: Y=f(X) 或者条件概率分布: P(Y|X) 监督学习的方法又可以分为:生成方法和判别方法。所学到的模型又称为生成模型和判别模型生成学习方法定义由数据学习联合概率分布P(X,Y)【通常是通过P(X,Y)=P(X|Y)P(X)】,然后求出条件概率分布P(Y|X)作原创 2017-08-08 21:07:31 · 311 阅读 · 0 评论 -
【转载】斯坦福大学机器学习——高斯判别分析
## 转载声明这位博主的文章相当好,点赞![http://blog.csdn.net/linkin1005/article/details/39054023](http://blog.csdn.net/linkin1005/article/details/39054023)同朴素贝叶斯一样,高斯判别分析(Gaussian discriminant analysismodel, GDA)也是一种转载 2017-08-09 21:43:16 · 350 阅读 · 0 评论 -
【转载】斯坦福大学机器学习——朴素贝叶斯
## **转载声明** 这位博主的文章相当好,点赞![http://blog.csdn.net/linkin1005/article/details/39025879](http://blog.csdn.net/linkin1005/article/details/39025879)首次听说朴素贝叶斯是在吴军的google黑板报数学之美专题,统计语言模型一章中谈及。其后,吴信东在我们学...转载 2017-08-17 23:16:56 · 370 阅读 · 0 评论 -
Logistic回归
Part1:优缺点优:直接对分类的可能性进行建模,无需事先假设数据分布。对率函数是任意阶可导的凸函数,方便求解 缺:对自变量的多重共线性比较敏感,预测结果呈S型分布,变化率越来越小,导致很多区间的变量变化对目标概率没有区分度 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 适用数据类型:数值型和标称型数据。 from 周志华《机器学习》 1、无需事先假设数据分原创 2017-06-11 10:46:11 · 1049 阅读 · 0 评论 -
【转载】朴素贝叶斯算法原理小结
这位博主写的很好,可以移步此处http://www.cnblogs.com/pinard/p/6069267.html转载 2017-08-19 15:40:57 · 262 阅读 · 0 评论 -
朴素贝叶斯
先看下面的内容,主要是CS299中朴素贝叶斯的内容,有博主写的很详细,就直接搬运过来了。本文主要是参数求解的内容 【转载】斯坦福大学机器学习——朴素贝叶斯 【转载】朴素贝叶斯算法原理小结 指标含义和说明条件独立性假设or类内独立性目标函数参数求解原创 2017-08-19 17:01:37 · 240 阅读 · 0 评论 -
梯度下降&随即梯度下降
CS299课程的笔记为什么梯度方向下降最快方向导数定义:函数在某一特定方向上的变化率。 方向导数是一个标量,负则函数值该方向减少,正则函数值该方向增加 那么我们想要目标函数值下降,其实是寻找一个方向使得函数变化率的绝对值最大,并且方向为负。 具体如下: 方向导数和偏导数概念1:方向余弦—在解析几何里,一个向量的三个方向余弦分别是这向量与三个坐标轴之间的角度的余弦。 方向导数能够表示为偏导数原创 2017-05-16 16:30:34 · 501 阅读 · 0 评论