统计学习方法
文章平均质量分 69
元气满满的少女程序员
代码就像人家的魔法书,涂涂改改总能运行~
展开
-
区分【生成方法】与【判别方法】
生成方法 由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,生产模型:P(Y|X)=P(X,Y)/P(X) 模型表示了给定输入X产生输出Y的生成关系。 代表方法:隐马尔可夫模型,朴素贝叶斯模型 优点:收敛快,允许存在隐变量判别方法 由数据直接虚席决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。关心的是对给定的输入X原创 2017-05-31 18:41:51 · 753 阅读 · 0 评论 -
《统计学习方法》笔记——算法性能度量
错误率与精度错误率是分类错误的样本数栈样本总数的比例。 精度是分类正确的样本栈样本总数的比例。 对样例集D,分类错误率定义为: 精度定义为: 常用的精度度量指标有MAE,RMSE: 以协同过滤中该度量指标的应用为例进行描述如下: MAE: 其中Pa,d表示预测评分值,ra,d表示测试集中的实际评分值,L表示测试集的大小 RMSE:原创 2017-06-01 11:01:03 · 660 阅读 · 0 评论 -
《统计学习方法》笔记——决策树之ID3算法
决策树之ID3算法概述:工作原理: 得到原始数据集,然后基于最好的属性值划分数据集,由于特征值可能多于两个,因此可能存在大于两个分支的数据集划分。第一次划分之后,数据被向下传递到树分支的下一个节点,在这个节点上,我们可以再次划分数据,因此,我们可以采用递归的原则处理数据集。递归结束的条件是:程序遍历完所有划分数据集的属性。每个分支下的所有实例都具有相同的分类。算法流程:决策树学习算法包含特征选原创 2017-06-03 17:16:31 · 530 阅读 · 0 评论 -
《统计学习方法》笔记——朴素贝叶斯算法
朴素贝叶斯算法概述朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。算法流程1.朴素贝叶斯法是典型的生成学习方法,生成方法由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y|X)。即,利用训练数据学习P原创 2017-06-05 17:23:06 · 1052 阅读 · 0 评论 -
《统计学习方法笔记》——Logistic回归
Logistic回归简介假设有一些数据点,我们利用一条直线对这些数据点进行拟合(该线称为最佳拟合直线),这个拟合过程就称为回归。利用Logistic进行回归的主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类。算法流程1.优化目标函数需要的函数应该是可以接受所有的输入然后预测出类别。 例如,在两类的情况下,上述函数输出0或1。海维塞德阶跃函数或者直接称为单位阶跃函数满足这一性质。然而,海原创 2017-06-06 15:18:33 · 690 阅读 · 0 评论 -
《统计学习方法》笔记——K近邻模型
K近邻方法概述工作原理:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某各类,就把该输入实力分为这个类。通常来说,k是不大于20的整数。算法流程K近邻模型由3个基本要素构成:距离度量、k值的选择、分类决策规则决定1.距离度量一般使用欧氏距离作为距离度量,但也可以是其他距离,如更一般的LpL_{p}距离或Minkowski距离。 LpL_{p}距原创 2017-06-02 10:46:10 · 519 阅读 · 0 评论 -
《统计学习方法》笔记——支持向量机(SVM)
支持向量机概述支持向量机是一种二分类模型,他的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机(感知机利用误分类最小的策略,求得分离超平面,解有无穷多个;线性可分支持向量机利用间隔最大化求解最优分离超平面,解是唯一的。);支持向量机还包括核技巧(将数据,有时是非线性数据,从一个低维空间映射到一个高维空间,可以将一个在低维空间中的非线性问题转换为高维空间下的线性问题来求解。)原创 2017-06-07 16:06:56 · 1480 阅读 · 0 评论 -
《统计学习方法》笔记——AdaBoost
集成方法集成方法就是通过组合多个分类器的分类结果,获得比简单的分类器更好的分类结果。 使用集成方法的多种形式: 1)可以是不同算法的集成 2)可以是同一算法在不同设置下的集成 3)数据集不同部分分配给不同分类器之后的集成 厦门介绍同一种分类器多个不同实例的两种计算方法(基于数据随机重抽样的分类器构建方法):bagging(自举汇聚法)Bagging是在原始数据集选择S次后得到S个数据集的技原创 2017-06-08 11:33:48 · 1296 阅读 · 1 评论 -
《统计学习方法》笔记——回归
线性回归线性回归简洁的说就是将输入项分别乘以一些常量,再将结果加起来,得到输出。 求解回归系数:选择使得平方误差最小的W(回归系数)。 平方误差可以写作:∑i=1m(yi−xTiw)2\sum_{i=1}^{m}(y_{i}-x_{i}^{T}w)^{2} 用矩阵表示还可以写做(y−Xw)T(y−Xw)(y-Xw)^{T}(y-Xw)。如果对W求导,得到XT(Y−Xw)X^{T}(Y-Xw)原创 2017-06-12 11:46:10 · 568 阅读 · 0 评论