1、下面属于维归约常用的线性代数技术的有( 主成分分析 )
2、假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内( 第二个 )
3、数据规范化方法包括( 最小最大规范化 )
4、两组向量x={6,4,7,10,8},y={5,6,1,4,12}的协方差为( 0.2 )
5、已知某工厂车间工人的年终奖,其均值为34 349元,标准差为16 928元,对于观测值为57 000元,使用z-score方法对其进行规范化为( 1.34 )
6、下列数据变换类型及方法正确的是( 数据平滑:去噪,将连续数据离散化,增加粒度;特征构造:构造出新的属性;数据规范化:使数据按照比例缩放,落入特定区域 )
7、数据归约技术包括( 维归约;数量归约;数据压缩 )
8、在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各方法正确的有( 忽略元组;使用属性的平均值填充空缺值;使用与给定元组属同一类的所有样本的平均值 )
9、数据预处理的技术手段包括( 数据清理;数据集成;数据变换;数据归约 )
10、数据归约策略包括( 数量归约;属性子集选择;抽样;直方图 )
11、噪声是指被测量的变量产生的错误或误差。( 错 )
12、数据变换是通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。( 对 )
13、唯一性原则是指一个属性的每个值都是唯一的,不能和这个属性的其他值相同。( 对 )
14、每个属性的最大值和最小值之间没有缺失值既满足连续性原则。( 错 )
15、数据规约就是指对数据集进行简化表示。( 对 )
16、在确定数据中的离群点时,一般不必检查整个数据集。( 对 )
17、在现实世界的数据中,元组在某些属性上的缺失值是常有的。处理该问题的常用方法有删除数据对象或属性、估计遗漏值、忽略遗漏值。( 对 )
18、在使用分箱法实现特征离散化时,可以用每个箱中的中位数或平均数替换箱中所有的值。( 对 )
19、数据清理一般需要对噪声和缺失值进行处理。( 对 )
20、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务( 数据预处理 )
21、数据清理不包括以下哪些处理( 重复数据的处理 )
22、给定一组二维样本S,S = {S1, S2, S3, S4, S5}= {(1,2),(3,0),(4,3),(5,7),(1,6)},在距离阈值d大于等于4、非邻点样本的阈值部分p大于等于3时的噪声数据为( S4, S5 )
23、假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。对age值35进行小数定标规范化转换,转换后的值为( 0.35 )
24、假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。使用min-max规范化,将age值35转换d到[0.0,1.0]区间的值为( 0.386 )
25、假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。已知age的标准偏差为12.94年,使用z-score规范化对age值35进行转换,转换后得到的值( 0.386 )
26、我们要进行数据预处理,是因为原始数据大多都是( “脏数据” )
27、下面哪些属于数据预处理的方法( 变量代换;离散化;聚集 )
28、数据变换的类型包括( 数据泛化;数据离散化;特征构造 )
29、对数据进行偏差检测的3个原则分别是( 唯一性原则;连续性原则;空值原则 )
30、数据清理的原则包括( 连续性原则;唯一性原则;空值原则 )
31、高质量数据的要求有( 准确性;完整性;一致性 )
32、处理缺失数据的方法是( 接删除缺失属性的记录;人工填写;使用全局常量填充缺失值;使用属性的中心趋势度量值填充缺失值 )
33、数据规约技术可以得到数据集的规约表示,虽然小,但仍大致保持原数据的完整性。( 对 )
34、数据预处理的任务包括数据清理、数据集成、数据规约和数据泛化。( 错 )
35、数据变换策略主要包括光滑、聚集、数据泛化、规范化、属性构造和离散化。( 对 )
36、数据挖掘所处理的数据必须具有准确性、完整性、一致性、时效性、可信性和可解释性。( 错 )
37、数据集成有助于减少结果数据集的冗余和不一致,可以提高集成之后的挖掘过程的准确性和速度。( 对 )