统计分析基础 (一)数据统计与图表
1 数据统计
1.1 统计学
统计学是在数据分析的基础上,自17世纪中叶产生并逐步发展起来的一门学科。它是研究如何测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。统计广泛地应用在各门学科,从自然科学、社会科学到人文学科,甚至被用来工商业及政府的情报决策之上,目前比较热门的应用:经济学,医学,心理学等。随着大数据(Big Data)时代来临,统计的面貌也逐渐改变,与信息、计算等领域密切结合,是数据科学(Data Science)中的重要主轴之一。
统计学可以分为:描述统计学和推断统计学
1、描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围。
2、推断统计学:根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。
1.2 集中趋势
如果只容许使用一个数字去代表这组数据,选择数据的中心,即反映数据集中趋势的统计量。
例如:对于1 2 3 4 5这组数据,那么数字3,反映了数据的中心。
1.3 均值
如果只容许使用一个数字去代表这组数据,选择数据的中心,即反映数据集中趋势的统计量。
均值公式:
如:某次数学考试中,小组A与小组B的成员的成绩分别如下:
A:70,85,62,98,92 B:82,87,95,80,83
求两小组的平均分:
组A:(70+85+62+98+92)/5=81.4
组B:(82+87+95+80+83)/5=85.4
比较结果:组B的平均分比组A高,组B的总体成绩比组A高。
1.4 中位数
顾名思义,中位数就是将数据按大小顺序(从大到小或是从小到大都可以)排列后处于中间位置的数。
例:58,32,46,92,73,88,23
1、先排序:23,32,46,58,73,88,92
2、找出处于中间位置的数:23,32,46,58,73,88,92。三个数字比58小,三个数字比58大。
例:58,32,46,92,73,88,23,63
1、先排序:23,32,46,58,63,73,88,92
2、找出处于中间位置的数:23,32,46,58,63,73,88,92
3、若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两个数的算术平均数ÿ