机器学习概论（常见概念集合）

最新推荐文章于 2022-03-26 11:49:05 发布

巧妇难为无米之炊

最新推荐文章于 2022-03-26 11:49:05 发布

阅读量327

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_44232687/article/details/108955406

版权

机器学习专栏收录该内容

5 篇文章 2 订阅

订阅专栏

本文介绍了机器学习中的一些核心概念，如过拟合与欠拟合、贝叶斯方法、边缘概率、条件概率、联合概率、概率密度、期望、贝叶斯概率、最大似然估计、高斯分布、模型选择、决策论、最小化期望损失、分类问题和判别模型等。这些概念是理解和应用机器学习算法的基础，对于解决实际问题和优化模型性能至关重要。

摘要由CSDN通过智能技术生成

人的一生，就像是一场修行。没有荆棘满地，有的只是脚下的路，还有远处的信仰。

——杰

参照文章：

http://blog.sciencenet.cn/blog-491809-400893.html
https://baike.sogou.com/v305474.htm?fromTitle=%E9%AB%98%E6%96%AF%E5%88%86%E5%B8%83
https://blog.csdn.net/Ding_xiaofei/article/details/80093024
https://blog.csdn.net/Ding_xiaofei/article/details/80093024

推荐书籍

模式识别与机器学习
统计学习方法
机器学习

1. 拟合（多项式）

过拟合是指为了得到一致假设而使假设变得过度严格。欠拟合是相对过拟合来说的。

在这里插入图片描述
通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
或者采用贝叶斯方法，参数的有效数量会自动根据数据集的规模调节；
另外还有正则化。它是通过增加一个惩罚项，使得系数不会达到很大的值。

2. 边缘概率

边缘概率是某个事件发生的概率，而与其它事件无关.边缘概率是这样得到的：在联合概率中，把最终结果中不需要的那些事件合并成其事件的全概率而消失（对离散随机变量用求和得全概率，对连续随机变量用积分得全概率）。

在这里插入图片描述

3. 条件概率

条件概率（conditional probability）就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P（A|B），读作“在B条件下A的概率”。

在这里插入图片描述

4. 联合概率

联合概率表示两个事件共同发生的概率

A与B的联合概率表示为在这里插入图片描述

5. 概率密度

概率指事件随机发生的机率，对于均匀分布函数，概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度，它的值是非负的，可以很大也可以很小

在这里插入图片描述

密度概率的最大值的概念取决于变量的选择，变量是否离散

6. 期望

在概率分布p(X)下，函数f(x)的平均值被称为f(x)的期望，记着E[f]。这里为了方便我们可以认为是，不出意外的平均情况。
它的出现，往往是与方差有关系。在概率论和统计学中，协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况

协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

7. 贝叶斯概率

贝叶斯法则是关于随机事件W和D的条件概率和边缘概率的。
P(W)是先验概率，D是观测数据，P（D|W）是条件概率，P(W|D)后验概率，在观测D后对W的预测可能性。
这里的用到了一个公式
P(w∩D) = P(W)*P(D|W)=P(D)*P(W|D)

这里的条件概率p(D|W），由观测数据集D来估计，可以被看成是参数向量W的函数，被称为似然函数，表达在不同的参数向量w下，观测数据出现的可能性的大小。

在频率学家的观点中，w被认为是一个固定的参数，它的值由某种形式的“估计”来确定，与考察可能的数据集D的概率分布有很大的关系
贝叶斯的观点，只有一个数据集，参数的不确定性通过W的概率分布来表达。这也是为什么它可以解决过拟合的原因

8. 最大似然估计

在这里插入图片描述

最大似然估计，表达在不同的参数向量W下，观测数据出现的可能性的大小。

最大似然估计法的基本思想
　　最大似然估计法的思想很简单：在已经得到试验结果的情况下，我们应该寻找使这个结果出现的可能性最大的那个作为真的估计
　　

9. 高斯分布

在这里插入图片描述

正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution），是一个非常重要的概率分布。在数学、物理及工程等领域以及统计学的许多方面有着重大的影响力。
正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线

在这里插入图片描述

10. 模型选择

每一个模型，都有它自身的优劣。
多项式的阶数，控制了模型的自由参数的个数，可以控制模型的复杂度。通过正则化的最小平方，可以避免过拟合
在最大似然方法中，由于过拟合的现象，模型在训练集上的表现并不能很好的表示模型对于未知数据的预测能力。使用交叉验证可以解决。但是缺点是需要进行的训练次数随着S而增加

11. 决策论

当决策论与概率论结合的时候，我们能够在涉及到不确定性的情况下做出最优的决策。目标是最小化把x分到错误类别中的可能性，选择有最大后验概率的类别。
这里需要最小化错误分类率。

12. 最小化期望损失

损失函数，代价函数对于所有的决策或者动作可能产生的损失的一种整体的度量。

13. 分类问题（推断和决策）

分类是监督学习的一个核心问题。监督学习从数据中学习一个分类模型或者分类决策函数，称为分类器。分类器对新输入进行输出的预测，称为分类。
分类问题包括学习和分类两个过程。

回归是监督学习的另一个重要问题，回归用于预测输入变量和输出变量之间的关系，特别是当输入变量发生变化的时候，输出变量也随之变化。回归模型正是表示从输入变量到输出变量之间映射的函数。
回归问题分为学习和预测两个过程。

标注是监督学习问题。也可以认为是分类问题。标注问题的输入是一个观测序列，输出是一个标记序列或者状态序列。

分类问题可以划分为两个阶段：推断和决策，另外还有一种判别
在这里插入图片描述

14. 判别模型和生成模型

显式地或者隐式地对输入以及输出进行建模的方法，称为生成式模型，（这里需要人工生成大量的样本）GM
直接对后验概率建模的方法。称为判别式模型。DM

DM：关注X和Y的关系
GM：试图描述X和Y的联合分布

15. 熵

熵，这个概念,就是指不确定性，
在后面的学习过程中，我们会遇到信息熵、最大熵等概念

16. 相对熵和互信息

在这里插入图片描述
我们需要的平均的附加信息量，称为分布p(x)和q(x)之间的相对熵。

由p(x,y)给出的两个变量x和y组成的数据集。考察联合概率分布与边缘概率分布乘积之间的KL散度来判断它们是否“接近”于相互独立。这被称为变量X和变量Y之间的互信息

在这里插入图片描述 >=0
这是互信息和条件熵的关系

在这里插入图片描述

17. 其他概念

泛化：正确分类与训练集不同的新样本的能力叫做泛化
特征抽取：原始输入向量通常被预处理，变换到新的变量空间的阶段。（一般它的出现，是为了提高计算速度）
监督学习：训练数据的样本包含输入向量以及对应的目标向量的应用
反馈学习技术关注的问题是在给定的条件下，找到合适的动作，使得奖励达到最大值。它的通用特征是探索和利用。探索是指系统尝试新类型的动作，利用是指系统使用已知的能产生较高奖励的动作。