数据分析

数据描述

数据的本质:数据对象【样本、实例、数据点、或对象】
数据属性

属性(attribute)是一个数据字段,表示数据对象的一个特征。

标称属性:其值是一些符号或者事物的名称

二元属性:只有两种结果的标称属性

序数属性:其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。【标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。】

数值属性:区间标度属性【①使用相等的单位尺度度量。②值有序,可以评估值之间的差,不能评估倍数。③没有绝对的零点。 如:摄氏温度,华氏温度】
比率标度(ratio-scaled)属性【①具有固定零点的数值属性。②值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。如:开式温温标(K),重量,高度,速度】

离散属性 :【①具有有限或者无限可数个值。② 可以用或者不用整数表示 如: 邮编、省份数目具有有限个值,customer_Id是无限可数的。】

连续属性:【①属性值为实数。② 一般用浮点变量表示。】

数据的统计指标

目的:为了更好的把握数据全貌与数据走势、数据分布

常用统计指标:众数、均值、中位数等

数据可视化

目的:直观的观察数据走势、分布等规律【折线图、柱状图、饼图、直方图、箱线图等图形】

数据的相关性:数据的相似程度
行代表数据对象,列代表数据属性

为什么要进行数据处理?

1、数据可能存在缺失的、异常的、不一致的情况

2、没有高质量的数据就没有高质量的数据挖掘结果

操作

1,数据清理【处理缺失值,去除异常值,数据的统一】
2,数据集成【将多个不同文件的数据集成成一个数据】
3,数据规约【转化到同一量级 去除量级影响】
4,数据离散化与变换【离散非数值数据转化为数值类型,连续数据的离散化】

数据分析

获取到数据,进行数据处理、指标统计、绘图分析,得出结论【偏向业务层级】

数据挖掘

利用IT相关知识进行数据价值的挖掘,偏向挖掘价值的过程

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值