【数据挖掘复习题】

一.单选题(共78题)

12345678910
DCADABDCAD
11121314151617181920
BACBBCBCBD
21222324252627282930
CAACBCDDCC
31323334353637383940
BBCDAABCBBBD
41424344454647484950
ABCBBCCBBB
51525354555657585960
CCAABDADCA
61626364656667686970
BDADCCABAD
7172737475767778
BAACDCBA

1.下面哪个不属于数据的属性类型

A.标称
B.序数
C.区间
D.相异

2.属于定量的属性类型是

A.标称
B.序数
C.区间
D.相异

3.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是

A.一年级
B.二年级
C.三年级
D.四年级

4.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为

A.0.821
B.1.224
C.1.458
D.0.716

5.考虑数据集{12 24 33 24 55 68 26},其四分位数极差是

A.31
B.24
C.55
D.3

6.某班数学期末考成绩分组数据如下,则数据的中位数区间是
在这里插入图片描述

A.60至69分
B.70至79分
C.80至89分
D.90至100分

7.回归分析中使用的距离是点到直线的垂直坐标距离,最小二乘准则是指( )。

在这里插入图片描述

8.回归分析的步骤为( )。
① 进行相关分析 ② 建立预测模型 ③ 确定变量 ④ 确定预测值 ⑤ 计算预测误差

A.①③④⑤②
B.③①⑤②④
C.③②①⑤④
D.③⑤①②④

9.下列变量之间的关系是函数关系的是( )。

A.已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数的判别式Δ=b2-4ac。
B.光照时间和果树亩产量
C.降雪量和交通事故发生率
D.每亩施用肥料量和粮食产量

10.对于回归分析,下列说法错误的是( )。

A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
B.线性相关系数可以是正的,也可以是负的
C.回归分析中,如果r2=1,说明x与y之间完全相关
D.样本相关系数r∈(-1,1)

11.某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为y=8.25x+60.13,下列叙述正确的是( )。

A.该地区一个儿童的身高为142.63cm
B.该地区2~9岁的儿童每年的身高约增加8.25cm
C.该地区9岁儿童的平均身高是134.38cm
D.利用这个模型可以准确地预测该地区每个2~9岁儿童的身高

12.在这里插入图片描述

A.y = 0.51x + 6.65
B.y = 6.65x + 0.51
C.y = 0.51x + 42.30
D.y = 42.30x + 0.51

13.下表是x和y之间的一组数据,则y关于x的回归方程必过( )。
在这里插入图片描述

A.点(2, 3)
B.点(1.5, 4)
C.点(2.5, 4)
D.点(2.5, 5)

14.反映由模型中解释变量所解释的那部分离差大小的是( )。

A.总离差平方和
B.回归平方和
C.残差平方和
D.可决系数

15.总离差平方和TSS、残差平方和RSS与回归平方和ESS三者的关系是( )。

A.TSS>RSS+ESS
B.TSS=RSS+ESS
C.TSS<RSS+ESS
D.TSS2=RSS2+ESS2

16.决定系数R2的取值范围是( )。

A.R2<=1
B.R2>=1
C.0<R2<1
D.-1<R2<1

17.回归分析中定义的( )。

A.解释变量和被解释变量都是随机变量
B.解释变量为非随机变量,被解释变量为随机变量
C.解释变量和被解释变量都为非随机变量
D.解释变量为随机变量,被解释变量为非随机变量

18.最大或然准则是按从模型中得到既得的n组样本观测值的什么最大的准则确定样本回归方程( )。

A.离差平方和
B.均值
C.概率
D.方差

19.下表为日本的汇率与汽车出口数量数据,其中X为平均汇率(日元/美元),Y为汽车出口数量(万辆),那么,X与Y的相关系数为( )。
在这里插入图片描述

A.0.0769
B.0.9321
C.0.9203
D.0.0679

20.已知某农场通过试验取得早稻收获量与春季降雨量和春季温度的数据如下,则早稻收获量对春季降雨量和春季温度的二元线性回归方程为( )。
在这里插入图片描述

在这里插入图片描述

21.为研究某市家庭收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下,则回归直线方程为()。
在这里插入图片描述

在这里插入图片描述

22.下列几种数据挖掘功能中被广泛的用于购物篮分析的是( )

A.关联分析;
B.分类和预测;
C.聚类分析;
D.演变分析

23.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题( )

A.关联规则发现;
B.聚类;
C.分类;
D.自然语言处理;

24.设X={1,2,3}是频繁项集,则可由X产生多少个关联规则( )

A.4;
B.5;
C.6;
D.7

25.置信度(confidence)是衡量哪种兴趣度度量的指标( )

A.简洁性;
B.确定性;
C.实用性;
D.新颖性;

26.关联规则的支持度公式为()

A.support(A=>B)=P(A∩B);
B.support(A=>B)=P(B|A);
C.support(A=>B)=P(A∪B);
D.support(A=>B)=P(A|B);

27.下列指标中,能够度量一个规则的强度,同时衡量两个集合之间的独立性的是( )

A.提升度;
B.杠杆度;
C.IS度量;
D.确信度;

28.规则∅→A和A→∅的置信度是( )

A.50%;
B.75%;
C.90%;
D.100%;

29.令C1 ,C2和C3分别是规则{p}→{q},{p}→{q,r},{p,r}→{q}的置信度。如果假定C1, C2和C3有不同的值,置信度最低的规则是( )

A.C1;
B.C2;
C.C3;
D.C2和C3;

30.购买HDTV和购买健身器的情况如下表所示,设最小支持度阈值为0.3,最小置信度阈值为0.6,则{买HDTV}→{买健身器}的支持度为( )
在这里插入图片描述

A.0.45;
B.0.55;
C.0.33;
D.0.27;

31.上一题所给的数据中,{买HDTV}→{买健身器}的置信度为( )

A.0.65;
B.0.55;
C.0.49;
D.0.33;

32.如果X∈Y,且Y中至少有一项不在X中,那么Y是X的( )

A.频繁项集;
B.真超项集;
C.闭频繁项集;
D.极大频繁项集;

33.下列关于Apriori算法的分析中,错误的是( )

A.Apriori算法基于支持度的剪枝技术,用来控制候选项集的指数增长;
B.Apriori算法包括候选集生成和向下封闭检测两个阶段;
C.Apriori算法会扫描数据库2次;
D.Apriori算法使用逐层搜索的迭代方法;

34.下表所示的购物篮事务数据集中能够提取的3-项集的最大数量是( )
在这里插入图片描述

A.3;
B.6;
C.10;
D.20;

35.下列不属于Apriori算法的缺点的是( )

A.Apriori算法分为两个阶段挖掘频繁项集;
B.Apriori算法产生候选项目集时没有排除无用的候选项集;
C.Apriori算法在每一步产生候选项目集时循环产生的组合过多;
D.在扫描大型数据库时,Apriori算法会大大增加计算机系统I/O开销;

36.一个数据库有5 个事务,如下表所示。设min_sup=60%,min_conf = 80%。从下列选项中选出频繁2-项集
在这里插入图片描述

A.{M,K};
B.{O,K};
C.{K,E};

D.{M,O};

37.某苹果数据集如下所示, K近邻分类法(K取3)对(色度=8.8,高度=7.1,宽度=7.0)的苹果进行分类的结果为( )
在这里插入图片描述

A.绿苹果;
B.布瑞本;
C.金冠苹果;
D.绿苹果或布瑞本;

38.下列是有关于是否投保的数据集,第二列至第四列为特征,表中最后一列类别代表是否投保,按照“年薪”进行划分的信息增益率为( )
在这里插入图片描述

A.0.061;
B.0.327;
C.0.485;
D.0;

39.考虑下表中的数据集,使用贝叶斯分类预测记录X=(有房=否,婚姻状况=已婚,年收入=120k)的类标号( )
在这里插入图片描述

A.Yes;
B.No;
C.Yes or No;
D.不确定;

40.考虑下表中的一维数据集,根据 1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点 x=5.0分类,使用多数表决( )
在这里插入图片描述

A.-、+、-、+;
B.+、+、-、-;
C.-、-、+、+;
D.+、-、+、-;

41.下表给出了一个关于动物类别的训练数据。数据集包含5个属性:warm_blooded、feathers、fur、swims、lays_eggs。 若样本按warm_blooded划分,对应的熵为( )
在这里插入图片描述

A.0.809;
B.0.819;
C.0.609;
D.0.619;

42.下面的例子被分为3类:{Short,Tall,Medium},Height属性被划分为(0,1.6),(1.6,1.7),(1.7,1.8),(1.8,1.9),(1.9,2.0),(2.0,∞),根据下表,对于t=<Adam,M,1.95m>用贝叶斯分类方法进行分类,则最终结果为( )
在这里插入图片描述

A.Short;
B.Tall;
C.Medium;
D.None;

43.下列是有关于是否购买电脑的数据集,其中学历,是否结婚,收入为特征,表中最后一列类别代表是否购买电脑,则数据集的信息熵为( )
在这里插入图片描述

A.0.254;
B.0.376;
C.0.971;
D.0.865;

44.下面的数据集包含两个属性X和Y,两个类标号"+“和”-“。每个属性取三个不同的值: 0, 1或2。”+"类的概念是Y=1, "-“类的概念是X=0或X=2。则由表构建的决策树的F1值(对”+"类定义)是( )。
在这里插入图片描述

A.0.33;
B.0.5;
C.0.97;
D.1;

45.下面哪种距离度量方法为欧几里得距离( )

在这里插入图片描述

46.以下哪些算法是分类算法( )

A.DBSCAN
B.C4.5
C.K-Means
D.EM

47.以下哪个算法将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术( )

A.MIN(单链)
B.MAX(全链)
C.组平均
D.Ward方法

48.以下哪个聚类算法不属于基于网格的聚类算法( )

A.STING
B.CLIQUE
C.MAFIA
D.BIRCH

49.关于混合模型聚类算法的优缺点,下面说法正确的是( )

A.当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理
B.混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布
C.混合模型很难发现不同大小和椭球形状的簇
D.混合模型在有噪声和离群点时不会存在问题

50.DIANA算法中,定义两个数据点之间的平均距离的为( )

A.簇的直径;
B.平均相异度;
C.欧几里得距离;
D.范式距离;

51.与其他观测值的差别如此之大,以至于怀疑他是由不同的机制产生的,且是一个观测值的是( )。

A.边界点
B.质心
C.离群点
D.核心点

52.一个对象的离群点得分是该对象周围密度的逆。这是基于( )的离群点定义

A.概率
B.邻近度
C.密度
D.聚类

53.下列属于分类模型进行离群点检测的优势的是( )。

A.可以检测所有离群点
B.不再需要数据和正常数据的距离
C.建立在统计学原理上,易于理解
D.当数据充分,检验十分有效

54.离群点又被称为异常值,它的本质是( )。

A.数据对象
B.特征
C.像素点
D.一个数值

55.离群点分为全局离群点,( )。

A.部分离群点和条件离群点
B.条件离群点和集体离群点
C.部分离群点和集体离群点
D.异常离群点和集体离群点

56.使用基于分类的方法进行离群点的识别在实际应用中用的并不是很多,这是因为这种方式( )。

A.分类准确率不高
B.训练代价高
C.训练数据难以获取
D.受训练数据的影响非常大

57.基于近邻的离群点检测方法包括基于距离的离群点检测和( )。

A.基于密度的离群点检测
B.基于位置的离群点检测
C.基于数据的离群点检测
D.基于概率的离群点检测

58.离群点可以是合法的数据对象或者( )。

A.数据关系
B.特征
C.像素点
D.值

59.如果一个对象不强属于任何簇,那么该对象是( )。

A.基于距离的离群点
B.基于统计的离群点
C.基于聚类的离群点
D.基于密度的离群点

60.下面属于维归约常用的线性代数技术的有( )

A.主成分分析
B.特征提取;
C.特征加权
D.离散化

61.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内( )

A.第一个
B.第二个
C.第三个
D.第四个

等宽划分:将整个区域划分成N个相同大小的间隔
变量的取值范围为5–215,k为4.(215-5)/4=52.5划分点为57.5,110,162.5,4个箱中数据为
A箱:5, 10, 11, 13, 15,35, 50, 55
B箱:72, 92
C箱:空
D箱:204, 215

等频划分:将整个区域划分为N个间隔,各个间隔中包含的样本数目大致相同
本问题中观测个数为12.k=4.每箱里有3个数据。
A箱:5, 10, 11,
B箱:13, 15,35
C箱: 50, 55,72
D箱:92,204, 215
分箱问题/CSDN@存储存储

62.数据规范化方法包括( )

A.数据归约
B.数据泛化
C.数据集成
D.最小最大规范化

63.已知某工厂车间工人的年终奖,其均值为34 349元,标准差为16 928元,对于观测值为57 000元,使用z-score方法对其进行规范化为( )

A.1.34
B.1.43
C.0.35
D.0.57

64.下列属于数据挖掘任务的是( )

A.根据性别划分公司的顾客
B.计算公司的总销售额
C.预测一对骰子的结果
D.利用历史记录预测公司的未来股价

65.下述四种方法哪一种不是常见的分类方法( )

A.决策树
B.支持向量
C.K-Means
D.朴素贝叶斯分类

66.将原始数据进行集成、变换、维度规约、数值规约是哪个步骤的任务( )

A.频繁模式挖掘
B.分类和预测
C.数据预处理
D.数据流挖掘

67.KDD是( )

A.数据挖掘与知识发现
B.领域知识发现
C.文档知识发现
D.动态知识发现

68.下列有关离群点的分析错误的是( )

A.一般情况下离群点会被当作噪声而丢弃
B.离群点即是噪声数据
C.在某些特殊应用中离群点有特殊的意义
D.信用卡在不常消费地区突然消费大量金额的现象属于离群点分析范畴

69.从海量数据中提取有用的信息,所面临的困难有( )

A.数据量太大,无法使用传统的数据分析工具和技术处理它们
B.数据本身不是非传统数据,不能使用传统的数据处理方法进行处理
C.在某些情况下,面临的问题不能使用已有的数据分析技术来解决
D.数据量太大,没有足够的存储空间

70.关于数据分析与数据挖掘的区别,正确的是( )

A.数据分析和数据挖掘处理的数据量都是海量的
B.数据分析与数据挖掘的目标都是明确的
C.数据分析的侧重点在于对未知的情况进行预测和估计
D.数据挖掘的侧重点在于对未知的情况进行预测和估计

71.下列任务中,数据数据挖掘技术在商务智能方面应用的是( )

A.顾客分析
B.定向营销
C.商店分布
D.欺诈检测

72.下列任务中,属于数据挖掘范畴的是( )

A.预测1位新的顾客是否会在一家百货公司消费100元以上
B.使用数据库管理系统查找个别的记录
C.通过因特网的搜索引擎查找特定的WeB页面
D.根据性别划分公司的顾客

73.关于数据分析与数据挖掘的联系,下列说法正确的是( )

A.数据分析的结果往往需要进一步的挖掘才能得到更加清晰的结果
B.数据挖掘发现知识的过程不需要对先验约束进行一定的调整而再次进行数据分析
C.数据分析可以将数据变成知识,而数据挖掘将知识变成信息
D.仅靠数据挖掘就可以从数据中发现知识

74.采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当地描述,提取出有用的信息的过程是( )。

A.数据统计
B.数据分类
C.数据分析
D.数据挖掘

75.下面哪一个不属于知识发现过程( )

A.数据预处理
B.数据挖掘
C.知识表示
D.数据计算

76.指全局或局部范围内偏离一般水平的观测对象的是( )。

A.偏离点
B.差异点
C.离群点
D.不稳定点

77.下图所示属于那种数据类型?( )
在这里插入图片描述

A.数据流数据
B.图和网状数据
C.数据仓库数据
D.数据矩阵

78.关于数据库系统与数据仓库说法错误的是( )

A.数据仓库是为了解决数据处理方面的问题而建立起来的数据处理系统
B.通过数据仓库,可以在不同的维度合并数据,形成数据立方体,便于从不同的角度对数据进行分析和挖掘。
C.数据仓库更加注重便于用户创建、维护和使用
D.数据库系统汇集了来自多个不同数据源的数据

二.多选题(共31题)

12345678910
ABCABDACDABCABCDADADACDABCABCD
11121314151617181920
ACCDABDABADABDABCDABCDABDABC
21222324252627282930
BCDABCACACDABCACDABDABCDBCABDE
31
ABCD

1.在回归分析中,检验线性相关显著性常用的三种检验方法,包含( )。

A.相关系数显著性检验法
B.t检验法
C.F检验法(即方差检验法)

D.X2检验法

2.回归方程在这里插入图片描述,则下列说法不正确的有( )。

A.y=1.5x - 15
B.15是回归系数a

C.1.5是回归系数a
D.x=10时,y=0

3.下列关系中具有相关关系的是( )。

A.人的年龄与他拥有的财富之间的关系
B.曲线上的点与该点的坐标之间的关系
C.苹果的产量与气候之间的关系
D.森林中的同一种树木,其断面直径与高度之间的关系

4.下列变量中,属于正相关的是( )。

A.收入增加,储蓄额增加
B.产量增加,生产费用增加
C.收入增加,支出增加

D.价格下降,消费增加

5.考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5},{1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。选出根据Apriori 算法利用上述频繁3-项集生成的候选4-项集( )

A.{1,2,3,4};
B.{1,2,3,5};
C.{1,2,4,5};
D.{2,3,4,5};

6.下表是一个购物篮,假定支持度阈值为40%,其中哪几个是频繁闭项集( )
在这里插入图片描述

A.abc;
B.ad;
C.cd;
D.de;

7.以下关于非频繁模式说法,正确的是( )

A.其支持度小于阈值;
B.都是不让人感兴趣的;
C.其支持度大于阈值;
D.对异常数据项敏感;

8.下列关于FP-growth算法优缺点的表述中,正确的有( )

A.相比于Apriori算法,FP-growth算法运行速度要快一个数量级;
B.FP-growth算法在建立FP-tree时占用空间较小;
C.FP-growth算法无须多次扫描数据库,节省了运行时间;
D.FP-growth算法处理产生的条件树时会占用很多资源;

9.一个数据库有5个事务,如下表所示。设min_sup=60%,min_conf = 80%。从下列选项中选出频繁2-项集()
在这里插入图片描述

A.{M,K};
B.{O,K};
C.{K,E};

D.{M,O};

10.决策树分类的特点主要包括( )

A.对数据源进行OLAP, 得到训练集和测试集;
B.对训练集进行训练;
C.对初始决策树进行树剪枝;
D.由所得到的决策树提取分类规则;
E使用测试数据集进行预测,评估决策树模型;

11.下列哪些是分类与预测的不同之处( )

A.分类的作用是构造一系列能描述和区分数据类型或概念的模型;
B.分类被用作预测目标数据的类的标签;
C.预测是建立一个模型去预测缺失的或无效的并且通常是数字的数据值;
D.预测典型的应用是预测缺失的数字型数据的值;

12.下列哪些是朴素贝叶斯分类的优缺点( )

A.朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销;
B.需要大量训练数据以覆盖类条件概率空间,引入了很大开销;
C.容易实现并在大多数情况下可以取得较好的结果;
D.类条件独立在实际应用中缺乏准确性,因为变量之间经常存在依赖关系,这种依赖关系影响了朴素贝叶斯分类器的准确性;

13.支持向量机模型包括( )

A.线性可分支持向量机;
B.线性支持向量机;

C.非线性可分支持向量机;
D.非线性支持向量机;

14.贝叶斯信念网络(BBN)有哪些特点( )

A.构造网络费时费力;
B.对模型的过分问题非常鲁棒;

C.有效地避免过拟合;
D.最小化计算开销;

15.下列说法正确的是( )

A.聚类是物理或抽象对象的集合分组成为多个类或簇(cluster)的过程;
B.聚类中不同簇中的对象差别较小;
C.聚类和分类要划分的类是未知的;
D.聚类是一种无指导学习,属于观察式学习,分类则属于有指导的学习,是示例式学习;

16.聚类质量评估的主要任务包括( )

A.估计聚类趋势
B.确定簇数;

C.确定层次结构;
D.确定聚类质量

17.聚类分析中最常用的距离有( )

A.切比雪夫距离;
B.欧几里的距离;
C.曼哈坦距离;
D.明可夫斯基距离

18.数据的哪些特性对聚类分析具有很强的影响( )

A.高维性;
B.规模;
C.稀疏性;
D.噪声和离群点

19.下列属于离群点的检测方法的是( )。

A.基于近邻的离群点检测
B.基于聚类的离群点检测

C.基于应用价值的离群点检测
D.基于分类的离群点检测;

20.下列属于基于统计的离群点检测流程的是( )。

A.设定数据集的分布模型
B.不和谐检验
C.发现离群点

D.验证离群点

21.下列属于离群点检测在数据挖掘中的应用的是( )。

A.市场营销管理
B.网络监视异常
C.工业损毁检测
D.网络入侵检测

22.下列属于离群点产生的原因的是( )。

A.由于数据本身的可变性所致
B.由于计算的误差或者操作的错误
C.由于噪声所致

D.由于操作人员随意添加所致

23.下列关于离群点与噪声的说法,错误的是( )。

A.观测值即是真实数据与噪声无关
B.噪声指被观测数据的随机误差
C.噪声是异常分析的研究对象
D.噪声数据是一种离群点

24.下列数据变换类型及方法正确的是( )

A.数据平滑:去噪,将连续数据离散化,增加粒度
B.数据聚集:对数值属性进行监督或无监督离散化
C.特征构造:构造出新的属性
D.数据规范化:使数据按照比例缩放,落入特定区域

25.数据归约技术包括( )

A.维归约
B.数量归约
C.数据压缩

D.数据清理

26.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各方法正确的有( )

A.忽略元组
B.从数据中挑选一个数据填写
C.使用属性的平均值填充空缺值
D.用与给定元组属同一类的所有样本的平均值

27.数据分析与挖掘的数据类型有( )

A.数据库数据
B.数据仓库数据

C.树状数据
D.图和网状数据

28.数据挖掘算法要解决的问题有( )

A.算法的可伸缩性
B.异种数据和复杂数据
C.数据的所有权与分布
D.非传统的分析

29.数据挖掘任务主要分为哪两类( )

A.计算任务
B.预测任务
C.描述任务

D.评价任务

30.数据仓库是一个什么样的数据集合,支持管理者决策过程( )。

A.面向主题的
B.集成的

C.面向对象的
D.非易失的
E时变得

31.下列属于分类与回归的方法有( )

A.决策树
B.支持向量机
C.朴素贝叶斯分类
D.规则分类器

三.判断题(共54题)

1.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

正确答案:
频繁项集的产生:其目标是发现满足最小支持度阈值(minsup)的所有项集
关联规则的主要工作包含下面两个方面:
(1)发现频繁项集
(2)生成关联规则
关联规则挖掘/知乎@石显

2.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

正确答案:

3.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有非空子集也是频繁的。

正确答案:

4.具有较高的支持度的项集具有较高的置信度。

正确答案:
Support(支持度):表示某个项集出现的频率
Confidence(置信度):表示当A项出现时B项同时出现的频率
因此不一定
机器学习——关联规则——支持度(support)、置信度(confidence)、提升度(Lift)/CSDN@xia ge tou lia

5.如果两个项集的提升度的值小于1,则说明两个项集正相关。

正确答案:
Lift(提升度):指A项和B项一同出现的频率
提升度反映了关联规则中的A与B的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性。负值,商品之间具有相互排斥的作用。
机器学习——关联规则——支持度(support)、置信度(confidence)、提升度(Lift)/CSDN@xia ge tou lia

6.两个项集的全置信度越大,说明两个项集的关系越紧密,反之则关系越疏远。

正确答案:

7.可信度是对关联规则的准确度的衡量。

正确答案:

8.关联规则是形如X=>Y的蕴含式,X和Y满足:X和Y是I的真子集,并且X和Y的交集为空集。

正确答案:

9.设最小支持度阈值为30%,最小置信度阈值为70%,如果一个项集的支持度为50%,则该项集是频繁项集。

正确答案:

10.当一个数据对象同时属于多个类时,很难评估分类的准确率。通常在这种情况下,我们选择的分类器一般趋向于含有这样的特征:最小化计算开销,即使给予噪声数据或不完整数据也能准确预测,在大规模数据下仍然有效工作,提供简明易懂的结果。

正确答案:

11.KNN的主要思想是计算每个训练数据(每个训练数据都有一个唯一的类别标识)到待分类元祖的距离,取和待分类元祖距离最近的k个训练数据集,k个数据中哪个类别的训练数据占多数,则待分类元祖就属于那个类别。

正确答案:

12.将结点划分为更小的后续结点后,结点熵可能会增加。

正确答案:
由定义可知,熵值越大,类分布越均匀;熵值越小,类分布越不平衡。将节点划分为更小的后续节点后,结点分布更加不平衡,熵值减小
数据挖掘复习(包括一些课本习题)/CSDN@Yuan_xii

13.朴素贝叶斯假设属性之间是相互独立的。

正确答案:

14.数据分类分为两步:第一步的基本任务是建立一个模型并描述预定的数据类集;第二步的基本任务是评估模型的预测准确率,用准确率可以接受的模型对类标号未知的数据进行分类。

正确答案:

15.下表为两周内天气与外出购物的数据集,利用朴素贝叶斯分类预测天气情况为(天气=晴,温度=冷,湿度=高,风力=强)时的结果为不会外出购物。
在这里插入图片描述

正确答案:

16.DBSCAN算法能够很好的区分原始数据的形状,但受限于用户指定的参数。

正确答案:

17.在通过相似度矩阵评估簇时,如果相似度矩阵是块对角的,说明具有明显分离的簇。

正确答案:

18.SSE在无监督的簇评估中能起到很好的作用。

正确答案:

19.DBSCAN会把所有点划分到各自的簇中。

正确答案:
DBSCAN是具有噪声的基于密度的聚类方法
DBSCAN(具有噪声的基于密度的聚类方法)/CSDN@石莹

20.判断簇的个数不属于簇评估。

正确答案:
簇评估的任务:
(1)确定数据集的聚类趋势,识别数据中是否存在非随机结构
(2)确定正确簇个数
(3)不引用附加信息,评估聚类分析结果对数据拟合情况
(4)将聚类分析结果和已知的客观结果比较
(5)比较两个簇集
第八章(3) 聚类:DBSCAN和簇评估/CSDN@Lang Grass

21.K-中心点算法采用簇中对象的平均值作为参考点。

正确答案:
K-中心点算法选用簇中位置最中心的对象作为参考点

22.DIANA算法中平均相异度指两个数据点之间的平均距离。

正确答案:

23.在聚类分析当中,簇内的相似性越大,簇将的差别越大,聚类的效果就越差。

正确答案:
簇内的相似性越大,簇间的差别越大,聚类的效果就越好。你想啊,分类或者聚类效果的好坏其实就看同一类中的样本相似度,当然是越高越好,说明你分类越准确。
机器学习练习题(二)/CSDN@Timmy_Y

24.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。

正确答案:
需要手动输入k值

25.若一个对象不属于任何簇,那么该对象是基于聚类的离群点。

正确答案:

26.分裂层次聚类和凝聚层次聚类可以对已经做出的划分决策进行回溯,聚类之间可以交换对象。

正确答案:
《数据分析与数据挖掘》第二版 喻梅 P259
层次聚类的过程是不可逆的,一旦凝聚或者分裂了数据对象就不能再次修正,这样很容易导致质量低的聚类结果。

27.同一种层次的聚类方法,选定的类间距度量不同,聚类的次序和结果也可能不同。

正确答案:

28.STING算法是一种基于网格的多分辨率聚类技术。

正确答案:

29.同一层次的聚类方法,选定的类间距度量不同,聚类的结果可能相同也可能不同。

正确答案:

30.一种正确选择簇数的启发式方法是使用簇内方差和关于簇数曲线的拐点。

正确答案:

31.层次聚类仅局限与基于距离,不能基于密度或空间。

正确答案:
《数据分析与数据挖掘》第二版 喻梅 P259
层次聚类不局限于基于距离,也可以基于密度、连通性,甚至基于空间进行聚类。

32.噪声是指被测量的变量产生的错误或误差。

正确答案:
噪声是指被测量的变量产生的随机错误或误差

33.数据变换是通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。

正确答案:

34.唯一性原则是指一个属性的每个值都是唯一的,不能和这个属性的其他值相同。

正确答案:

35.每个属性的最大值和最小值之间没有缺失值既满足连续性原则。

正确答案:
连续性规则:属性的最低和最高值之间没有缺失的值,并且所有的值还必须是唯一的(例如,检验数)。
《数据挖掘:概念与技术》—学习笔记/博客园@风不想过

36.数据规约就是指对数据集进行简化表示。

正确答案:

37.在确定数据中的离群点时,一般不必检查整个数据集。

正确答案:

38.无监督学习可以在没有标记的数据集上进行学习。

正确答案:

39.聚类就是把一些对象划分为多个组或者聚簇,从而使同组内对象间比较相似而不同组对象间差异较大。

正确答案:

40.事务数据库的每个记录代表一个事务。

正确答案:

41.数据仓库和数据库其实是相同的,都是数据或信息的存储系统。

正确答案:
数据库:按照数据结构来组织、存储和管理数据的仓库。
数据仓库:是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。是一种集成型数据库,也可以看作是多维异构历史数据的存储过程

42.离群点因偏离一般水平而不需要考虑和研究。

正确答案:
离群点检测在很多现实环境中都有很大的应用价值,如网络入侵检测、工业损毁检测、网络异常检测、医疗处理和欺诈检测等

43.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

正确答案:

44.数据仓库一般存储在线交易数据,数据库存储的一般是历史数据。

正确答案:
简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,有很高的事务要求;数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
数据仓库之数据分析/博客园@lowi

45.数据库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

正确答案:
数据仓库的定义

46.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

正确答案:

47.数据仓库中间层OLAP服务器只能采用关系型OLAP。

正确答案:
数据仓库中间层OLAP服务器可以是关系型OLAP也可以是多维OLAP服务器
数据仓库与数据挖掘课后思考题整理/CSDN@九陌斋

48.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分。

正确答案:
数据仓库系统至少应该包含数据获取(Data Acquisition)、 数据存储 (Data Storage)、数据访问(Data Access)三个关键部分

49.在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。

正确答案:
数据挖掘与数据分析/知乎@协采云

50.数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。

正确答案:

51.SQL、C++、Python、Matlab等是数据挖掘常用的编程语言。

正确答案:

52.数据挖掘需要掌握一定的机器学习模型例如贝叶斯方法、决策树、监督学习模型。

正确答案:

53.监督学习不具有对未知数据进行分类的能力。

正确答案:
监督学习就是最常见的分类(注意和聚类区分)问题,通过已有的训练样本(即已知数据及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优表示某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。
机器学习两种方法——监督学习和无监督学习(通俗理解)/CSDN@Norstc

54.无监督学习的应用场景不包括关联规则的学习。

正确答案:
关联规则(Association Rules):反映一个事务与其他事务之间的相互依存性和关联性。关联规则是无监督的机器学习方法,用于知识发现而非预测,关联规则的学习器无需事先对训练数据进行打标签,缺点是很难对关联规则学习器进行模型评估,一般都可以通过业务经验观测结果是否合理。
机器学习(八):关联规则/掘金@youyou202

PS:仅供参考,因个人能力有限,如有错误,请不吝赐教~

  • 24
    点赞
  • 219
    收藏
    觉得还不错? 一键收藏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值