机器学习之1-概论

机器(统计)学习一之概论

1、统计学习

1.1特点

1、以计算机及网络为平台,建立在计算机网络之上的;
2、以数据为研究对象,是数据驱动的学科;
3、目的是对数据进行预测与分析;
4、以方法为中学,构建模型并应用模型进行预测与分析
5、是概率论、统计学、信息论、计算理论、最优化离线以及计算机科学等多个领域的交叉学科;

1.2统计学习的对象

对象是数据,从数据出发,提取数据特征,抽象出数据模型,发现数据中的知识,有回到对数据的分析与预测中去;

1.3统计学习的目的

主要用于对数据的预测与分析,特别是对位置数据进行预测与分析。

1.4统计学习方法

主要由监督学习、非监督学习、半监督学习和强化学习等组成;
监督学习:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的,并且假设要学习的模型属于某个函数集合,成为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使她对已知训练数据及未知数据在给定的评价准则下有最优的预测;最优模型有算法实现。这样统计学习方法包括模型的假设空间、模型选择准则以及模型学习算法,称其为统计学习方法的三要素:模型、策略、算法;
之所以叫监督学习,是因为这类算法必须要知道预测什么,及目标变量的分类信息
无监督学习,此时数据没有类别信息,也不会给目标值,在无监督学习中,将数据集合分成有由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的郭晨称为密度估计;
监督学习的用途:k-近邻算法、线性回归、朴素贝叶斯算法、局部加权线性回归、支持向量机、ridge回归、决策树、lasso最小回归系数估计
非监督学习的用途:k-均值 最大期望算法 DBSCAN parzen窗设计
统计学习方法步骤:
1、得到一个有限的训练集合
2、确定包含所有可能的模型的假设空间,及学习模型的集合
3、确定模型选择的准则,及学习的策略
4、实现求解最优模型的算法,及学习算法
5、通过学习方法选择最优模型
6、利用学习的最优模型对新数据进行预测和分析
本文主要学习监督学习方法

1.5统计学习研究

研究主要包括统计学习方法、统计学习理论及统计学习应用

1.6统计学习的重要性

主要体现在这几个方面:
1、处理海量数据的有效方法
2、计算机智能化的有效手段
3、计算机科学发展的一个重要组成部分

2监督学习

监督学习的任务是学习一个模型,是模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

2.1基本概念

输入、输出空间:输入与输出所有可能取值的集合分别称为输入输出空间;
每个具体的输入时一个实例,通常由特征向量表示(假设一个二维矩阵表示特征空间,一行就是一个实例,每一列代表一个特征,而每一行对应不同列也就是不同特征的取值)
所有的特征向量存在的空间称为特征空间
输入变量与输出变量为连续变量的预测问题称为回归问题;
输出变量为有限个离散变量的预测问题称为分类问题;
输入变量与输出变量均为变量序列的预测问题称为标注问题;

假设空间:监督学习的目的是在于学习一个有输入到输出的映射,所有映射的集合成为假设空间;

2.2 问题形式化


                                                                  监督学习问题


3统计学习三要素

方法=模型+策略+算法

3.1 模型

模型就是所有学习的条件概率分布或者决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数

3.2 策略

统计学习要考虑按照什么样的准则学习或者选择最优的模型,统计学习目标在于从假设空间中选取最优模型
准则:说白了就是评估标准,如何评估你的模型是好是坏,也就是所谓的策略。

一般就是损失函数和风险函数,或者说误差、期望等等:
损失函数:0-1损失函数(L(y,f(x))=0 y!= f(x)      L(y,f(x))=1 y=f(x))、平方损失函数L(y,f(x))=(y-f(x))*(y-f(x))、绝对损失函数L(y,f(x))=|y-f(x)|、对数损失函数L(y,f(x))=-logP(y|x)

3.3 算法

算法是指学习模型的具体计算方法。说白了就是如何选取到最优模型,或者如何获取到最优的系数。其实就是迭代的方法



4模型评估与模型选择

基于损失函数,得出模型的训练误差和测试误差
训练误差:训练数据集得出的
测试误差:测试数据集得出的

5 正则化和交叉验证

正则化是结构风险最小化策略的实现;
解释一下:我们为了得到最好的模型,模型会和训练数据拟合的非常好,也就是误差非常小,极限就到0了;但是模型会非常复杂,不稳定,也就是稍微有点波动,就会导致预测错误,这叫过拟合;为了防止过拟合,在做误差计算时就要增加一项,那就是模型复杂度,这样正则化后的最小误差才表示模型相对不复杂,预测还相对准确的模型;

交叉验证就是,我们有训练集和,测试集合,其实训练时可以交叉训练,也就是将训练集和测试集进行融合;
主要的交叉验证方法:简单交叉验证、S着交叉验证、留一交叉验证

6泛化能力

6.1 泛化误差:其实就是误差的期望
6.2泛化误差上界:性质:样本容量的函数,当样本容量增加时,泛化上界趋于0,它是假设空间容量的函数,假设空间容量越大,模型约难学,泛化误差上界就越大

7生成模型与判别模型

监督学习方法又分为生成方法和判别方法
生成方法由数据学习联合概率分布p(x,y),然后求出条件概率分布p(y|x)作为预测的模型及生成模型:
p(y|x)=p(x,y)/p(x)
这样的方法之所以成为生成方法,是因为模型表示了给定的输入x产生输出y的生成关系,典型的生成模型有:朴素贝叶斯和因马尔科夫

判别方法由数据直接学习决策函数f(x)或者调解概率分布p(y|x)作为预测模型,及判别模型。判别方法关系的对给定的输入x,应该预测什么样的输出y。判别模型:k近邻、感知机、决策树、逻辑斯蒂回归、最大熵、支持向量机、提升方法、条件随机场。

生成方法特点:可以还原出联合概率分布p(x,y),而判别不能,生成方法收敛速度快,即样本容量增加的时候,学到的模型可以更快地收敛到真实模型,存在隐变量时,仍可以用生成方法,判别方法不可用

判别方法特点,直接学习条件概率或决策函数,知己而面对预测,学习准确率高。




  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值