【数据挖掘】属性的概念

1、属性: 一个数据字段,表示数据对象的一个特征。(属性(数据挖掘和数据库人员使用)、维(数据仓库)、特征(机器学习)、变量可以互换实用(统计学家使用))
 
2、标称属性:标称意味着“与名称相关”;标称属性的值是一些符号或失误的名称。每个只代表某种类别、编码或者状态,因而标称属性又被堪称是分类的。例如,人的属性->头发颜色(黑、白、棕、红、黄...)和婚姻状况(未婚、已婚、离异...)属于标称属性。其实也就是枚举的属性。
    标称属性值可以用数字表示,如1,2,3等;但是这些值并不具有有意义的序,并且不是定量的,因而这种属性的均值、中位数是没有意义的。众数是有意义的。
 
3、二元属性:是一种标称属性,只有两种类别(状态):0和1,通常0表示该属性不出现,1表示出现。又称为布尔属性(true 和 false)。
    二元属性又分对称的和非对称的: 对称指两种状态具有同等价值且相同的权重,如性别(男、女);非对称是指状态的结果不是同样重要的,如病毒化验结果(阳性、阴性)。
 
4、序数属性:其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。序数属性通常用于等级评定调查。
标称、二元和序数属性都是定性的,他们描述对象的特征,而不给出实际大小或数量。定性属性的值通常是代表类别的词。
 
5、数值属性:是定量的,他是可度量的量,用证书或实数值表示,数值属性可以是区间标度的或比率标度的。
    区间标度属性:属性用相等的单位尺度度量。区间熟悉的值有序,例如: 20度,15度(温度属性);
    比率标度属性:具有固定零点的数值属性,即一个值是另一个的倍数(比率)。比率值也是有序的,可以计算值之间的差、也能计算均值、中位数、众数。
 
6、离散属性与连续属性:机器学习领域开发的分类算法通常把属性分类成离散或连续的。
    离散属性:具有有限或无限可数个值,可以用或不用整数表示,如头发颜色、婚姻状况都是有限个值,是离散的。
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值