数据挖掘(Data Mining)第三章课后习题

文章讨论了数据预处理的关键技术,包括维归约、数据规范化、缺失值处理、数据变换和数据规约。提到了主成分分析、等频分箱、最小最大规范化、协方差计算、Z-score标准化等具体方法。同时,强调了数据清理、数据集成、数据变换和数据归约在确保数据质量、准确性、完整性和一致性方面的作用。
摘要由CSDN通过智能技术生成

1、下面属于维归约常用的线性代数技术的有( 主成分分析 )

2、假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内( 第二个 )

3、数据规范化方法包括(  最小最大规范化  )

4、两组向量x={6,4,7,10,8},y={5,6,1,4,12}的协方差为(  0.2  )

5、已知某工厂车间工人的年终奖,其均值为34 349元,标准差为16 928元,对于观测值为57 000元,使用z-score方法对其进行规范化为(  1.34  )

6、下列数据变换类型及方法正确的是(  数据平滑:去噪,将连续数据离散化,增加粒度;特征构造:构造出新的属性;数据规范化:使数据按照比例缩放,落入特定区域  )

7、数据归约技术包括(  维归约;数量归约;数据压缩  )

8、在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各方法正确的有(  忽略元组;使用属性的平均值填充空缺值;使用与给定元组属同一类的所有样本的平均值  )

9、数据预处理的技术手段包括( 数据清理;数据集成;数据变换;数据归约 )

10、数据归约策略包括( 数量归约;属性子集选择;抽样;直方图 )

11、噪声是指被测量的变量产生的错误或误差。( 错 )

12、数据变换是通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。( 对 )

13、唯一性原则是指一个属性的每个值都是唯一的,不能和这个属性的其他值相同。( 对 )

14、每个属性的最大值和最小值之间没有缺失值既满足连续性原则。( 错 )

15、数据规约就是指对数据集进行简化表示。( 对 )

16、在确定数据中的离群点时,一般不必检查整个数据集。( 对 )

17、在现实世界的数据中,元组在某些属性上的缺失值是常有的。处理该问题的常用方法有删除数据对象或属性、估计遗漏值、忽略遗漏值。( 对 )

18、在使用分箱法实现特征离散化时,可以用每个箱中的中位数或平均数替换箱中所有的值。( 对 )

19、数据清理一般需要对噪声和缺失值进行处理。( 对 )

20、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务( 数据预处理 )

21、数据清理不包括以下哪些处理( 重复数据的处理 )

22、给定一组二维样本S,S = {S1, S2, S3, S4, S5}= {(1,2),(3,0),(4,3),(5,7),(1,6)},在距离阈值d大于等于4、非邻点样本的阈值部分p大于等于3时的噪声数据为(  S4, S5  )

23、假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。对age值35进行小数定标规范化转换,转换后的值为(  0.35  )

24、假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。使用min-max规范化,将age值35转换d到[0.0,1.0]区间的值为(  0.386  )

25、假定用于分析的数据包含属性age,数据元祖中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。已知age的标准偏差为12.94年,使用z-score规范化对age值35进行转换,转换后得到的值(  0.386  )

26、我们要进行数据预处理,是因为原始数据大多都是(  “脏数据”  )

27、下面哪些属于数据预处理的方法(  变量代换;离散化;聚集  )

28、数据变换的类型包括(  数据泛化;数据离散化;特征构造  )

29、对数据进行偏差检测的3个原则分别是(  唯一性原则;连续性原则;空值原则  )

30、数据清理的原则包括(  连续性原则;唯一性原则;空值原则  )

31、高质量数据的要求有(  准确性;完整性;一致性  )

32、处理缺失数据的方法是(  接删除缺失属性的记录;人工填写;使用全局常量填充缺失值;使用属性的中心趋势度量值填充缺失值  )

33、数据规约技术可以得到数据集的规约表示,虽然小,但仍大致保持原数据的完整性。( 对 )

34、数据预处理的任务包括数据清理、数据集成、数据规约和数据泛化。( 错 )

35、数据变换策略主要包括光滑、聚集、数据泛化、规范化、属性构造和离散化。( 对 )

36、数据挖掘所处理的数据必须具有准确性、完整性、一致性、时效性、可信性和可解释性。( 错 )

37、数据集成有助于减少结果数据集的冗余和不一致,可以提高集成之后的挖掘过程的准确性和速度。( 对 )

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值