数据挖掘之数据准备

  1. 原始数据的表述
    两种常见的数据类型:数值型和分类型
    数值型值包括实型变量和整数变量,比如年龄、速度或长度,数值型特征有两个重要的属性:其值有顺序关系和距离关系
    分类型变量只有两个值:相等或不等,再建立一种等同关系,比如眼睛颜色、性别等
    2.基于变量值的变量分类,根据它是连续型变量还是离散型变量
    连续型变量也成为定量型或度量型变量,可以使用间隔尺度或比例尺度来衡量,这两种尺度都允许在理论上无限精度地定义或度量变量,而这两种尺度的区别在于它们定义零点的方式,再建个尺度重,零点的位置是任意的,而比例尺度,有绝对的零点,所以这种尺度测量的变量之间存在真实的比例关系,在大型的数据集中,连续型变量用实型或整型值来表示
  2. 离散型变量,也叫做定性型变量,这种变量用两种非度量的尺度—名义尺度或有序尺度
    名义尺度是无序的,使用不同的符号、字符和数字来表示被测变量的不相关的值
    有序尺度包括规则的、离散的顺序,有序变量是定义了顺序关系而没有定义距离关系的分类型变量,有序尺度不一定是线性的,在有序尺度中,有序属性只有大于、等于或小于关系
  3. 一种特殊的离散型变量是周期变量
    周期变量的特征是存在距离关系,而不存在顺序关系,例如星期、月、日
  4. 另一种数据分类维度是基于数据和时间相关的行为特性,一些数据不随时间的变化而变化,称为静态数据,也有随时间变化而变化的属性值,称为动态数据或时间数据,大多数数据挖掘方法更适合于静态数据,挖掘动态数据是,常常需要特殊的考虑和预处理
  5. 产生大多数数据挖掘问题的原因是,大量的样本具有不同类型的特征
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值