机器学习之1-概论

最新推荐文章于 2024-04-19 10:58:16 发布

AndyZhang

最新推荐文章于 2024-04-19 10:58:16 发布

阅读量732

点赞数

分类专栏：大数据机器学习统计文章标签：机器学习 machine learning 统计概论概率

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhang20072844/article/details/51404561

版权

机器学习同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

机器（统计）学习一之概论

1、统计学习

1.1特点

1、以计算机及网络为平台，建立在计算机网络之上的；

2、以数据为研究对象，是数据驱动的学科；

3、目的是对数据进行预测与分析；

4、以方法为中学，构建模型并应用模型进行预测与分析

5、是概率论、统计学、信息论、计算理论、最优化离线以及计算机科学等多个领域的交叉学科；

1.2统计学习的对象

对象是数据，从数据出发，提取数据特征，抽象出数据模型，发现数据中的知识，有回到对数据的分析与预测中去；

1.3统计学习的目的

主要用于对数据的预测与分析，特别是对位置数据进行预测与分析。

1.4统计学习方法

主要由监督学习、非监督学习、半监督学习和强化学习等组成；

监督学习：从给定的、有限的、用于学习的训练数据集合出发，假设数据是独立同分布产生的，并且假设要学习的模型属于某个函数集合，成为假设空间；应用某个评价准则，从假设空间中选取一个最优模型，使她对已知训练数据及未知数据在给定的评价准则下有最优的预测；最优模型有算法实现。这样统计学习方法包括模型的假设空间、模型选择准则以及模型学习算法，称其为统计学习方法的三要素：模型、策略、算法；

之所以叫监督学习，是因为这类算法必须要知道预测什么，及目标变量的分类信息

无监督学习，此时数据没有类别信息，也不会给目标值，在无监督学习中，将数据集合分成有由类似的对象组成的多个类的过程被称为聚类；将寻找描述数据统计值的郭晨称为密度估计；

监督学习的用途：k-近邻算法、线性回归、朴素贝叶斯算法、局部加权线性回归、支持向量机、ridge回归、决策树、lasso最小回归系数估计

非监督学习的用途：k-均值最大期望算法 DBSCAN parzen窗设计

统计学习方法步骤：

1、得到一个有限的训练集合

2、确定包含所有可能的模型的假设空间，及学习模型的集合

3、确定模型选择的准则，及学习的策略

4、实现求解最优模型的算法，及学习算法

5、通过学习方法选择最优模型

6、利用学习的最优模型对新数据进行预测和分析

本文主要学习监督学习方法

1.5统计学习研究

研究主要包括统计学习方法、统计学习理论及统计学习应用

1.6统计学习的重要性

主要体现在这几个方面：

1、处理海量数据的有效方法

2、计算机智能化的有效手段

3、计算机科学发展的一个重要组成部分

2监督学习

监督学习的任务是学习一个模型，是模型能够对任意给定的输入，对其相应的输出做出一个好的预测。

2.1基本概念

输入、输出空间：输入与输出所有可能取值的集合分别称为输入输出空间；

每个具体的输入时一个实例，通常由特征向量表示（假设一个二维矩阵表示特征空间，一行就是一个实例，每一列代表一个特征，而每一行对应不同列也就是不同特征的取值）

所有的特征向量存在的空间称为特征空间

输入变量与输出变量为连续变量的预测问题称为回归问题；

输出变量为有限个离散变量的预测问题称为分类问题；

输入变量与输出变量均为变量序列的预测问题称为标注问题；

假设空间：监督学习的目的是在于学习一个有输入到输出的映射，所有映射的集合成为假设空间；

2.2 问题形式化

监督学习问题

3统计学习三要素

方法=模型+策略+算法

3.1 模型

模型就是所有学习的条件概率分布或者决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数

3.2 策略

统计学习要考虑按照什么样的准则学习或者选择最优的模型，统计学习目标在于从假设空间中选取最优模型

准则：说白了就是评估标准，如何评估你的模型是好是坏，也就是所谓的策略。

一般就是损失函数和风险函数，或者说误差、期望等等：

损失函数：0-1损失函数（L(y,f(x))=0 y!= f(x) L(y,f(x))=1 y=f(x)）、平方损失函数L(y,f(x))=(y-f(x))*(y-f(x))、绝对损失函数L(y,f(x))=|y-f(x)|、对数损失函数L(y,f(x))=-logP(y|x)

3.3 算法

算法是指学习模型的具体计算方法。说白了就是如何选取到最优模型，或者如何获取到最优的系数。其实就是迭代的方法

4模型评估与模型选择

基于损失函数，得出模型的训练误差和测试误差

训练误差：训练数据集得出的

测试误差：测试数据集得出的

5 正则化和交叉验证

正则化是结构风险最小化策略的实现；

解释一下：我们为了得到最好的模型，模型会和训练数据拟合的非常好，也就是误差非常小，极限就到0了；但是模型会非常复杂，不稳定，也就是稍微有点波动，就会导致预测错误，这叫过拟合；为了防止过拟合，在做误差计算时就要增加一项，那就是模型复杂度，这样正则化后的最小误差才表示模型相对不复杂，预测还相对准确的模型；

交叉验证就是，我们有训练集和，测试集合，其实训练时可以交叉训练，也就是将训练集和测试集进行融合；

主要的交叉验证方法：简单交叉验证、S着交叉验证、留一交叉验证

6泛化能力

6.1 泛化误差：其实就是误差的期望

6.2泛化误差上界：性质：样本容量的函数，当样本容量增加时，泛化上界趋于0，它是假设空间容量的函数，假设空间容量越大，模型约难学，泛化误差上界就越大

7生成模型与判别模型

监督学习方法又分为生成方法和判别方法

生成方法由数据学习联合概率分布p（x,y），然后求出条件概率分布p(y|x)作为预测的模型及生成模型：

p(y|x)=p(x,y)/p(x)

这样的方法之所以成为生成方法，是因为模型表示了给定的输入x产生输出y的生成关系，典型的生成模型有：朴素贝叶斯和因马尔科夫

判别方法由数据直接学习决策函数f(x)或者调解概率分布p(y|x)作为预测模型，及判别模型。判别方法关系的对给定的输入x，应该预测什么样的输出y。判别模型：k近邻、感知机、决策树、逻辑斯蒂回归、最大熵、支持向量机、提升方法、条件随机场。

生成方法特点：可以还原出联合概率分布p(x,y)，而判别不能，生成方法收敛速度快，即样本容量增加的时候，学到的模型可以更快地收敛到真实模型，存在隐变量时，仍可以用生成方法，判别方法不可用

判别方法特点，直接学习条件概率或决策函数，知己而面对预测，学习准确率高。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之1-概论

机器（统计）学习一之概论1、统计学习1.1特点1、以计算机及网络为平台，建立在计算机网络之上的；2、以数据为研究对象，是数据驱动的学科；3、目的是对数据进行预测与分析；4、以方法为中学，构建模型并应用模型进行预测与分析5、是概率论、统计学、信息论、计算理论、最优化离线以及计算机科学等多个领域的交叉学科；1.2统计学习的对象对象是数据，从数据出发，提取数据特征，抽
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。