探索性数据分析(EDA)是数据分析过程的第一步。在这里,可以了解拥有的数据,然后找出想要问的问题以及如何构建它们,以及如何最好地操纵可用数据源以获得所需的答案。
1.如何描述业务量数据
2.可视化展示原则
1.1如何描述业务量特征
集中趋势:
集中趋势的概念就是平均数的概念,
它能够对总体的某一特征具有代表性,
表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。
均值 | 中位数 | 众数 |
---|---|---|
加权平均得出 | 一个变量中的中位数,把观测值分为两组, 一半的观测值小于这个数,另一半大于这个数 |
一个变量众数就是 指出现次数最多的值 |
信息量大 对极端值敏感 |
对极端值不敏感 | 简单直观 信息量小 |
取得集中趋势代表值的方法有两种:数值平均数和位置平均数。
离散趋势
描述一组计量资料离散趋势的常用指标有极差、四分位数间距、方差、标准差、标准误差和变异系数等,其中
方差和标准差最常用。