数据分析
数据分析的流程
1)问题定义
2)数据获取
3)数据预处理
4)数据分析与建模
5)数据可视化及数据报告的撰写"
数据分析的方法
1.贡献度分析
贡献度分析又称帕累托分析,它的原理是帕累托法则又称2/8定律。即累积效应达80%的前几个因素。
2.统计量分析
用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。
1) 集中趋势度量:均值;中位数;众数。
2)离中趋势度量:极差;标准差;变异系数;四分位数间距。
3.定量数据的分布分析
对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行。
1)求极差。
2)决定组距与组数。
3)决定分点。
4)列出频率分布表。
5)绘制频率分布直方图。
遵循的主要原则如下。
1)各组之间必须是相互排斥的。
2)各组必须将所有的数据包含在内。
3)各组的组宽最好相等。
对于定性变量,常常根据变量的分类类型来分组,可以采用饼形图和条形图来描述定性变量的分布。