智能数据挖掘技术——第二课(数据的基本概念)

本文深入探讨了数据的基本概念,包括数据的类型(如数据集、数据对象、属性)及其特性,强调了数据质量和重要度量如测量误差、噪声、离群点和遗漏值。同时,讲解了数据的统计描述,如中心趋势度量(平均值、中位数、众数)和散布度量(极差、四分位数、方差和标准差),以及数据可视化方法,如散点图和箱线图。最后,讨论了数据的相似性和相异性度量,如相似度、相异度和相关性,为后续的数据挖掘工作奠定了基础。
摘要由CSDN通过智能技术生成

一、数据

1、数据的类型

描述数据对象的属性可以具有不同的类型(定量或者定性)。针对于此,我们需要选择不同的工具或者技术。

数据集:数据集可以看作数据对象的集合

数据集的类型:

记录数据、基于图形的数据和有序的数据

数据集的一般特性:

维度:数据集中对象具有的属性数目,分析高纬度数据有时会陷入”维灾难“,数据预处理的一个重要动机就是减少维度,称为”维归约“。

分布(稀疏性):可以看作对数据空间各个区域中对象集中程度的描述,稀疏性的优点为非零值才需要存储和处理,可以节省大量计算和存储空间。

分辨率:在不同分辨率下数据的性质不通过,如果分辨率太高,模式可能看不出或掩埋在噪声中,如果分辨率太低,模式可能不出现。

数据对象:可以是记录、点、向量……用一组刻画对象特性的属性描述。

数据属性:用以描述对象的基本特性(别称也为变量、特性、字段、特征、维度)

基于记录的数据集在平展文件或者关系数据库系统中是最常见的。

属性:

定义:对象的性质或特征,它因对象而异,或随时间变化。

测量标度:将数值或者符号值与对象的属性相关联的规则(函数)例如将对象属性的物理值映射到数值或者符号值。

属性类型:标称、序数、区间、比率

分类或定性:(不具有数的大部分性质)

标称:用于区分对象(ID、性别……=,!=)

叙述:确定对象的序(成绩、街道号码……<,>)

数值或定量:(具有数的大部分性质)

区间:(日历日期、摄氏度……+,-)

比率:(年龄、质量……*,/)

非对称的二元性质:只有非零值才重要的二元属性。(学生选课)

记录数据:

定义:许多数据挖掘任务都假定数据集是记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集。

事务数据:是一种特殊类型的记录数据,其中每个记录(购物)涉及一系列的项(商品)。(购物篮数据)

数据矩阵:如果一个数据集族中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间中的点(向量),其中每个维代表对象的一个不同属性。(模式矩阵)

稀疏数据矩阵:是数据矩阵的一种特殊情况,其中属性的类型相同并且是非对称的,即只有非零值才是最重要的。文档集合又可称为文档-词矩阵。(每个分量的值对于词在文档中出现的次数)

  • 6
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值