导读:对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。
其中,分布分析能揭示数据的分布特征和分布类型。本文就手把手教你做分布分析。
作者:张良均 谭立云 刘名军 江建明
来源:大数据DT(ID:hzdashuju)
对于定量数据,要想了解其分布形式是对称的还是非对称的、发现某些特大或特小的可疑值,可做出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观分析;对于定性数据,可用饼图和条形图直观地显示其分布情况。
01 定量数据的分布分析
对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行:
第一步:求极差。
第二步:决定组距与组数。
第三步:决定分点。
第四步:列出频率分布表。
第五步:绘制频率分布直方图。
遵循的主要原则如下:
各组之间必须是相互排斥的。
各组必须将所有的数据包含在内。
各组的组宽最好相等。
下面结合具体实例来运用分布分析对定量数据进行特征分析。
表3-2是菜品“捞起生鱼片”在2014年第二个季度的销售数据,绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。
▲表3-2 “捞起生鱼片”的销售情况
1. 求极差
极差=最大值-最小值=3960-45=3915
2. 分组
这里根据业务数据的含义,可取组距为5