属性:attribute
属性分类:
标称属性:定义:与名称相关
此属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看成是分类的。这些值没有大小顺序。
注意:标称属性的数学运算没有意义,尽管一个标称属性可以取数值,但是也不能把它视为数值属性,因为分析中并不打算定量地使用这些整数。
二元属性
是一种特殊的标称属性,只有状态0和1,其中0常表示该属性不出现,而1表示出现。如果两种状态对应于true和false的话,此属性又称布尔属性
对称二元就是权重各占五成
序数属性:例如成绩优良中差 常用于评级调查
可以把数值属性离散化得到该属性
分析:
众数(mode),中位数(median),平均数
技巧 对于适度倾斜(非对称)的单峰数值数据,平均数减众数约等于三倍的平局数减中位数
中列数:用来评估数值数据的中心趋势
最大值和最小值的平均数
正倾斜 众数<中位数 负倾斜 众数>中位数
度量数据离散趋势
极差 range=max-min
分位数
定义:第p个百分位数,至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值
计算方法
递增排序,计算位置的指数i=(p/100)n,如果i不是整数,将其向上取整,如果i是整数,则p分位数为第i项和第i+1项的数据平均值
四分位极差
定义:第一个和第3个四分位数之间的距离
公式:IQR=Q3-Q1
特点:该距离是散步的一种简单变量,能够克服极端值的影响
分布的五数概括(five-number summary):
中位数(Q2)、四分位数Q1和Q3、最小和最大观测值
排序:按次序min,Q1,median,Q3,max写出
识别可疑离群点的通常规则:如果数值落在第3个四分位数之上或者第1个四分位数之下至少1.5xIQR处的值,则被看成可疑的离群点
箱线图:又称盒图
作用是体现五概括数
特征:在盒图中,第一个四分位数和第三个四分位数确定了盒子的底部和顶部
盒子中间的粗线就是中位数所在的位置
由盒子向上向下伸出的垂直部分称为触须,表示数据散步范围,通常最远点是1.5IQR
一个观测值一般不会远离均值超过标准差的数倍
变异系数等于标准差和均值的比值再乘以100
条形图、直方图
可视化(visualization)是将抽象的数据表示为视觉图像的技术