数据描述
数据的本质:数据对象【样本、实例、数据点、或对象】
数据属性
属性(attribute)是一个数据字段,表示数据对象的一个特征。
标称属性:其值是一些符号或者事物的名称
二元属性:只有两种结果的标称属性
序数属性:其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。【标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。】
数值属性:区间标度属性【①使用相等的单位尺度度量。②值有序,可以评估值之间的差,不能评估倍数。③没有绝对的零点。 如:摄氏温度,华氏温度】
比率标度(ratio-scaled)属性【①具有固定零点的数值属性。②值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。如:开式温温标(K),重量,高度,速度】
离散属性 :【①具有有限或者无限可数个值。② 可以用或者不用整数表示 如: 邮编、省份数目具有有限个值,customer_Id是无限可数的。】
连续属性:【①属性值为实数。② 一般用浮点变量表示。】
数据的统计指标
目的:为了更好的把握数据全貌与数据走势、数据分布
常用统计指标:众数、均值、中位数等
数据可视化
目的:直观的观察数据走势、分布等规律【折线图、柱状图、饼图、直方图、箱线图等图形】
数据的相关性:数据的相似程度
行代表数据对象,列代表数据属性
为什么要进行数据处理?
1、数据可能存在缺失的、异常的、不一致的情况
2、没有高质量的数据就没有高质量的数据挖掘结果
操作
1,数据清理【处理缺失值,去除异常值,数据的统一】
2,数据集成【将多个不同文件的数据集成成一个数据】
3,数据规约【转化到同一量级 去除量级影响】
4,数据离散化与变换【离散非数值数据转化为数值类型,连续数据的离散化】
数据分析
获取到数据,进行数据处理、指标统计、绘图分析,得出结论【偏向业务层级】
数据挖掘
利用IT相关知识进行数据价值的挖掘,偏向挖掘价值的过程