数据挖掘期末总结

最新推荐文章于 2024-06-16 16:01:36 发布

ms scholar

最新推荐文章于 2024-06-16 16:01:36 发布

阅读量2.8k

点赞数 3

分类专栏：复习文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_45613955/article/details/112067870

版权

复习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

数据挖掘期末复习

一、判断题

1.熵衡量的是系统的不确定性，熵值越大（接近于1）说明系统的不确定性越低。
正确
错误

二、单选题

1.在PCA变换中，应尽量把数据向什么方向投影：
数据集中的方向
数据散布大的方向
数据分组特征明显的方向
平行于原始坐标轴的方向

2.当样本个数小于数据维数的时候，LDA不能正常工作的原因是：
类间散布矩阵不满秩
类内散布矩阵不满秩
计算量过高
Fisher准则无意义

3.已知池中有两种鱼，比例为7:3，若随机捞上一条，按照70%和30%概率随机猜测其种类，则整体误差最接近于：
20%
30%
40%
50%

4.朴素贝叶斯分类器的朴素之处在于：
只能处理低维属性
只能处理离散型属性
分类效果一般
属性之间的条件独立性假设

5.决策树模型中建树的基本原则是：
取值多的属性应放在上层
取值少的属性应放在上层
信息增益大的属性应放在上层
应利用尽可能多的属性

三、名词解释

数据：

特点：数据体量巨大(Volume)，数据类型繁多(Variety)，价值密度低（Value），处理速度快（Velocity），复杂性（Complexity）。

数据属性有哪些类别?不同类别的属性有哪些作用?
标称属性: 就是用来描述一类事物的, 一般用来分类。
二元属性: 就是0或者1
序数属性: 就是属性之间有顺序的如讲师, 副教授, 教授
数值属性: 定量的, 分为区间标度属性和比例标度属性
ps. 标称, 二元, 序数是定性的, 数值是定量的

决策树：

数据质量：
正确性(Accuracy):数据是否正确体现在现实或可证实的来源。
完整性(Integrity):数据之间的参照完整性是否存在或一致。
一致性(Consistency):数据是否被一致的定义或理解。
完备性(Completeness):所有需要的数据是否都存在。
有效性(Validity):数据是否在企业定义的可接受的范围之内。
时效性(Timeliness):数据在需要的时间是否有效。
可获取性(Accessbility):数据是否易于获取、易于理解和易于使用。

支持向量机：

四、简答题

分类与聚类的概念和区别并介绍相关的算法：

分类：一种数据分析形式，它提取刻画重要数据类的模型。这种模型叫分类器，进而预测分类的（离散的、无序的）类标号。
聚类：将两个或多个属性（或对象）组合成单个属性（或对象）。

主要聚类分析的方法：划分方法；层次的方法；基于密度的方法；基于网格的方法；基于模型的方法。

监督学习（用于分类）
即分类器的学习，是在已知每个训练元组的类别的“监督下”进行的。
无监督学习（用于聚类）
每个训练元组的类标号未知，并且学习的类的个数和集合也可能是事先未知的。

数据预处理的步骤和原因：

（1）数据清理
处理缺失的值，光滑噪声数据，识别、删除离群点，解决不一致性
（2）数据集成，抽样
集成多个数据库、数据立方体或文件，抽样
（3）数据变换和离散化
规范化，概念分层生成
（4）维数约减
维规约，数量规约，数据压缩

数据标准化：
在这里插入图片描述
层次聚类：

一旦作出决定合并两个簇，它不能被撤消；
没有目标函数直接最小化；
不同的方案存在一个或多个以下问题；

k-means:

算法流程
1.随机选择k个对象 ，每个对象代表一个簇的初始均值或中心
2.对剩余的每 个对象，根据它与簇均值的距离，将他指派到最相似的簇
3.计算每个簇的新均值
4.回到步骤2 ，循环，直到准则函数收敛

优点：
简单，适用于规则不相交的簇。 
收敛速度相对较快。 
相对有效，算法复杂度： O(t·k·n)，t: 迭代次数; k: 中心点的个数; n: 样本点的数目。

缺点：
需要提前决定K的值。
可能会收敛到局部最优。
对噪声点和奇异点很敏感。
不适合的聚类 ：非凸的形状。

局限性：
K-means 在聚类有大小，密度，不同时或者非球形时会存在问题 。
K-means 当数据包含离群值时会出现问题。

apriori算法：

频繁项集：

DBSCAN ：

基于密度的簇是密度相连的点的集合。

主要思想：

寻找被低密度区域分离的高密度区域。
只要临近区域的密度（单位大小上对象或数据点的数目） 超过某个阈值，就继续聚类。

密度 = 指定半径(Eps)内的点的数量 。
一个点是一个核心点，如果在指定半径（Eps) 内有超过一个指定的点数 (MinPts)，那这些都是在簇内部的点。
在 指定半径（Eps）内，一个边界点有少于 MinPts 的点数， 但它落在核心点的邻域内。
噪声点 既非核心点也非边界点的任意点。

置信度和支持度：

基本分类器：

决策树 Decision Tree；
基于规则的方法 Rule-based Methods；
最近邻 Nearest-neighbor；
神经网络 Neural Networks, Deep Neural Nets；
朴素贝叶斯 Naïve Bayes；
支持向量机 Support Vector Machines；

集成分类器：

Boosting,；
随机森林 Random Forests；

集成学习：

两种主要的集成学习：平行（Bagging），顺序（Boosting）

组合模型的不同方法及其代表性算法：
1.平均 Averaging。
2.投票 Voting：
多数表决 Majority Voting：随机森林 Random Forest；
加权表决 Weighted Majority Voting：AdaBoost。
3.学习合成器Combiners：
通用合成器General Combiner：堆叠Stacking；
分段合成器Piecewise Combiner：区域推进RegionBoost。

KNN： K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高。适用数据范围;数值型和标称型。

AdaBoost： Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。

优点:泛化错误率低，易编码，可以应用在大部分分类器上，无参数调整。
缺点:对离群点敏感。
适用数据类型:数值型和标称型数据。