数据探索(2)数据特征分析

数据特征分析

分布分析

1.定量数据的分布分析

对于定量变量而言,选择组数和组宽是做频率分布分析时最主要的问题,一般按照以下步骤进行。
1)求极差
2)决定组距和组数
3)决定分店
4)列出频率分布表
5)绘制频率分布直方图
遵循以下原则:
1)各组之间必须相互排斥
2)各组必须包含所有数据
3)各组的组宽最好相等

2.定性数据的分布分析

对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定型变量的分布。

3.对比分析

(1)绝对数比较
(2)相对数比较

统计量度量

1.集中趋势度量
  • 均值
    均值对极端值很敏感
    截断均值 去掉高、低极端值之后的平均数。
  • 中位数
  • 众数
    众数一般用于离散型变量而非连续型变量
2.离中趋势度量
  • 极差
    对数据集的极端值非常敏感,并且忽略了位于最大值和最小值之间的数据的分布情况
  • 标准差
  • 变异系数
  • 四分位数间距

周期性分析

周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。
比如年度周期性趋势,季节性周期趋势,周度周期趋势,小时周期趋势等等

贡献度分析

共享度Fenix又称帕累托分析,他的原理是帕累托法则,又称20/80定律。
例如,对一个公司来讲,80%的利润常常来自原20%最畅销的产品,而其他80%的产品只产生了20%的利润。

相关性分析

分析连续变量之间线性相关的程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。
1.判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图。
2.需要同时考察多个变量间的相关关系时,一一绘制它们间的简单散点图是十分麻烦的,此时可利用散点图矩阵同时绘制各变量间的散点图,从而发现多个变量间的主要相关性,这在进行多元线性回归时显得尤为重要。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值