机器学习与数据挖掘知识归纳（一）

_TOS

已于 2022-12-05 21:34:28 修改

阅读量1.9k

点赞数 2

分类专栏：机器学习文章标签：数据挖掘

于 2022-12-05 21:33:20 首次发布

本文链接：https://blog.csdn.net/weixin_44602505/article/details/128193270

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一. 数据挖掘基础

1. 数据中的知识发现包括哪几个步骤？

数据源——（数据整合、准备）——整理过的数据——（数据选取与预处理）——准备好的数据——（数据挖掘）——模型——（模型评估）——专业知识

1、数据准备、整合: 了解 KDD 应用领域的有关情况，包括熟悉相关的背景知识，掌握用户需求，确定数据属性、把数据导入数据库、异常值缺失值的处理、处理数据偏差等。
2、数据选取: 旨在确定目标数据，根据用户的需要从原始数据库中选取相关数据或样本。
数据预处理: 对上述选出的数据进行再处理，检查数据完整性及数据一致性，量化连续、离散值，删除冗余/无用的数据特征，选择抽样方法，数据归一化等。数据预处理：主要包括

聚集（将两个或多个对象合并成单个对象）、
抽样（选择数据对象子集进行分析）、
维归约（将高维数据压缩成低维数据⽽减少数据量，常用的方法法为特征的提取，如线性判别分析LDA和主成分分析PCA）、
特征子集选择（将所有可能的特征子集作为感兴趣的数据挖掘算法的输入，然后选取产生最好结果的子集）
特征创建（由原来的属性创建新的属性集）
离散化和二元化（聚类、直⽅图）、
数据变换（归⼀化和标准化）等⼏个部分

3、数据挖掘: 根据KDD用户需求，选择合适的数据挖掘算法，对预处理后的数据进行挖掘的过程。传统的数据挖掘将算法大体分为有监督的学习与无监督的学习两种。

确定 KDD 目标:根据用户的要求，确定 KDD 要发现的知识类型，因为对 KDD 的不同要求会采用不同的知识发现算法，如分类、回归、关联规则、聚类等。
选择算法:根据步骤①确定的任务目标选择合适的知识发现算法，包括选取合适的模型和参数。有两种选择算法的途径，一是根据数据的特点不同，选择与之相关的算法;二是根据用户的要求，有的用户希望得到描述型的结果，有的用户希望得到更高的预测准确度。总之，要做到选择算法与整个 KDD 过程的评判标准相一致。
数据挖掘:这是整个 KDD 过程中重要的一个步骤。运用②中算法，从数据库中获取用户感兴趣的知识，并以一定的方式表示出来（如产生式规则等)。

4、模式评估: 对数据挖掘结果的评价，也是评价模型效果好与坏的标准，常见的评估指标有精度、召回率等。如果发现冗余或无关的模式，就将其剔除。

2. 数据挖掘应用

物体检测、文本分类、语音识别、图像识别、建模传感数据、自动驾驶、学习自定义用户、社交网络发现、医疗诊断等

二. 学习的可行性

在这里插入图片描述
假如一个罐子中有绿色和橙色两种弹珠，现在想知道罐子中橙色弹珠的比例，该怎么做？
这时便需要进行抽样并从抽出的样本（sample）中估计橙色弹珠的比例，但是抽样一定会带来一定的误差的，而且直观上来看，抽样的样本数目越多，误差越小。而 Hoeffding 不等式就是描述这个误差跟抽样数目的关系，假如橙色弹珠的真实比例为 μ , 而从样本中估计出的比例为 ν，样本大小为 N,样本v不一定等于µ，但可以趋近µ。上式中的 ϵ 表示允许的误差范围。
在这里插入图片描述

2. 用 Hoeffding 不等式说明学习的可行性

考虑一个二分类问题，样本标签与我们的模型 h 预测出的标签一致，和表示样本标签与预测标签不一致。则橙色弹珠的比例就是模型 h 的错误率。同时将模型 h 在总体中的错误率记为 Eout(h)（泛化误差）, 而在抽取的样本中的错误率记为 Ein(h)（训练误差），则根据 Hoeffding 不等式有：
在这里插入图片描述

也当模型的所有假设的个数 M 为有限个时，样本数目 N 足够大时，就能够保证泛化误差 Eout(h) 和训练误差 Ein(h) 很接近。只要找到一个假设使得 Ein(h) 很小，那么 Eout(h) 也会很小，从而达到学习的目的。
在这里插入图片描述

三. 数据和数据预处理

1. 有哪四种不同的属性类型？分别可以进行什么操作？

在这里插入图片描述

标称属性（nominal）：模、熵、卡方。值的转换有一一映射。
序数属性（ordinal）：中值、百分位、符号检验。值的转换有保序变换。
区间属性（interval）：平均值、标准差。值的转换有函数变换，可有偏置。
比率属性（ratio）：几何平均数、调和平均数。值的转换有函数变换，不可有偏置。

2. 非对称属性？

对于非对称的属性，只有非零的属性值被认为是重要的，我们一般只关注属性为1的情况，所以这个就是非对称的二元属性。
就像学生选课一样，没选的课为0，而考虑这些0的属性的话，基本每个学生都很相似了。还有比如二元属性，当考虑普通人的患癌情况时，健康时属性为0，患癌时为1，这样大部分情况下该属性都为0。
也可能有离散的或连续的非对称特征。例如，如果记录每门课程的学分，则结果数据集将包含非对称的离散属性或连续属性。

3. 数据对象之间相似度、相异度计算

3.1 相异度
两个对象之间的相异度 (dissimilarity) 是这两个对象差异程度的数值度量。对象越类似，它们的相异度就越低。距离（distance）用作相异度的比较，相异度在 0 和正无穷大之间取值。
（1）欧几里得距离：
n是维数，而xk和yk分别是 x 和 y 的第 k个属性值
在这里插入图片描述
（2）明可夫斯基距离：
r 是参数:

（1）r = 1, 城市街区（也称曼哈顿、出租车、L1范数）距离。
（2）r=2, 欧几里得距离（L2范数）。
（3）r = oo, 上确界（Lmax范数）距离。这是对象属性之间的最大距离。

（3）马氏距离：
在这里插入图片描述
3.2 相似度
两个对象之间的相似度 (similarity)的非正式定义是这两个对象相似程度的数值度量。相似度是非负的，并常常在 0 （不相似）和 1 （完全相似）之间取值。
（1）简单匹配系数

（2）Jaccard系数
在这里插入图片描述
（3）余弦相似度

（4）广义Jaccard系数

（5）相关分析