- 原始数据的表述
两种常见的数据类型:数值型和分类型
数值型值包括实型变量和整数变量,比如年龄、速度或长度,数值型特征有两个重要的属性:其值有顺序关系和距离关系
分类型变量只有两个值:相等或不等,再建立一种等同关系,比如眼睛颜色、性别等
2.基于变量值的变量分类,根据它是连续型变量还是离散型变量
连续型变量也成为定量型或度量型变量,可以使用间隔尺度或比例尺度来衡量,这两种尺度都允许在理论上无限精度地定义或度量变量,而这两种尺度的区别在于它们定义零点的方式,再建个尺度重,零点的位置是任意的,而比例尺度,有绝对的零点,所以这种尺度测量的变量之间存在真实的比例关系,在大型的数据集中,连续型变量用实型或整型值来表示 - 离散型变量,也叫做定性型变量,这种变量用两种非度量的尺度—名义尺度或有序尺度
名义尺度是无序的,使用不同的符号、字符和数字来表示被测变量的不相关的值
有序尺度包括规则的、离散的顺序,有序变量是定义了顺序关系而没有定义距离关系的分类型变量,有序尺度不一定是线性的,在有序尺度中,有序属性只有大于、等于或小于关系 - 一种特殊的离散型变量是周期变量
周期变量的特征是存在距离关系,而不存在顺序关系,例如星期、月、日 - 另一种数据分类维度是基于数据和时间相关的行为特性,一些数据不随时间的变化而变化,称为静态数据,也有随时间变化而变化的属性值,称为动态数据或时间数据,大多数数据挖掘方法更适合于静态数据,挖掘动态数据是,常常需要特殊的考虑和预处理
- 产生大多数数据挖掘问题的原因是,大量的样本具有不同类型的特征
数据挖掘之数据准备
最新推荐文章于 2023-05-07 15:58:55 发布