数据挖掘(3)

属性:attribute
属性分类:
标称属性:定义:与名称相关
此属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看成是分类的。这些值没有大小顺序。
注意:标称属性的数学运算没有意义,尽管一个标称属性可以取数值,但是也不能把它视为数值属性,因为分析中并不打算定量地使用这些整数。

二元属性
是一种特殊的标称属性,只有状态0和1,其中0常表示该属性不出现,而1表示出现。如果两种状态对应于true和false的话,此属性又称布尔属性
对称二元就是权重各占五成

序数属性:例如成绩优良中差 常用于评级调查
可以把数值属性离散化得到该属性

分析:
众数(mode),中位数(median),平均数
技巧 对于适度倾斜(非对称)的单峰数值数据,平均数减众数约等于三倍的平局数减中位数
中列数:用来评估数值数据的中心趋势
最大值和最小值的平均数
正倾斜 众数<中位数 负倾斜 众数>中位数

度量数据离散趋势
极差 range=max-min

分位数
定义:第p个百分位数,至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值
计算方法
递增排序,计算位置的指数i=(p/100)n,如果i不是整数,将其向上取整,如果i是整数,则p分位数为第i项和第i+1项的数据平均值
四分位极差
定义:第一个和第3个四分位数之间的距离
公式:IQR=Q3-Q1
特点:该距离是散步的一种简单变量,能够克服极端值的影响

分布的五数概括(five-number summary):
中位数(Q2)、四分位数Q1和Q3、最小和最大观测值
排序:按次序min,Q1,median,Q3,max写出

识别可疑离群点的通常规则:如果数值落在第3个四分位数之上或者第1个四分位数之下至少1.5xIQR处的值,则被看成可疑的离群点

箱线图:又称盒图
作用是体现五概括数
特征:在盒图中,第一个四分位数和第三个四分位数确定了盒子的底部和顶部
盒子中间的粗线就是中位数所在的位置
由盒子向上向下伸出的垂直部分称为触须,表示数据散步范围,通常最远点是1.5IQR

一个观测值一般不会远离均值超过标准差的数倍
变异系数等于标准差和均值的比值再乘以100

条形图、直方图

可视化(visualization)是将抽象的数据表示为视觉图像的技术

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值