NumPy 快速入门系列：应用统计学基础概念、相关统计指标与NumPy的实现

最新推荐文章于 2023-02-17 17:05:39 发布

YouMi Chou

最新推荐文章于 2023-02-17 17:05:39 发布

阅读量1.1k

点赞数 4

分类专栏： Numpy Pandas 数据分析文章标签： python 大数据 numpy 统计学数据分析

本文链接：https://blog.csdn.net/zhouz92/article/details/107644801

版权

本文介绍了统计学基础知识，如总量指标、相对指标、平均度量和变异指标，并通过Python的NumPy库展示了如何计算这些统计指标，适用于数据分析和数据科学领域。

摘要由CSDN通过智能技术生成

NumPy 快速入门系列：应用统计学基础概念、相关统计指标与NumPy的实现

前言：

个人认为数据分析其中一大块内容就是对数据的统计分析，而如何用 Python 进行有效且正确的统计分析，就不仅需要掌握数据分析工具 NumPy 及 Pandas 的使用，也需要对常用的统计学概念及统计学方法有一定的掌握。本篇的博客内容就主要介绍应用统计学中的一些基础概念及相关度量的概念，以及针对一组数据如何用 NumPy 计算出介绍的度量。

统计学导论：

统计学定义：

统计学是：阐述统计工作基本理论和基本方法的科学，是对统计工作实践的理论概括和经验总结。它以现象总体的数量方面为研究对象，阐明统计设计、统计调查、统计整理和统计分析的理论与方法，是一门方法论科学。

不列颠百科全书对统计的定义是：统计学是收集、分析、表述和解释数据的科学。

从上面的定义可以看出，NumPy 或 Pandas 主要是在统计学的数据分析阶段中使用；数据的收集工作，通常可以用 python 的爬虫技术来实现；而表述和解释就要应用到一些统计学和所分析数据领域的专业知识了。

统计学分类：

统计方法已广泛应用于自然科学和社会科学的众多领域，统计学也发展成为由若干分支组成的学科体系。由于出于不同的视角或不同的研究重点，人们常对统计学科体系作出不同的分类。

一般而言，有两种基本的分类：从方法的功能来看，统计学可以分成描述统计学和推断统计学；从方法研究的重点来看，统计学可分为 理论统计学 和 应用统计学 。

理论统计学即数理统计学，主要探讨统计学的数学原理和统计公式的来源 。

应用统计学，探讨如何运用统计方法去解决实际问题。

统计学基本概念：

总体与样本：

凡是客观存在、在某一共同性质基础上结合起来的许多个别事物的整体，叫做 统计总体（简称总体）。

所谓样本就是按照一定的概率从总体中抽取并作为总体代表的一部分总体单位的集合体。

指标与指标体系：

指标（统计指标）是说明现象总体数量特征的概念或范畴。

例如，要表明某地区全部工业企业这个总体的数量特征，其数量表现可以有：该地区 2000 年底工业企业单位数 1.2万个，全年工业总产值 100亿元，职工人数 200 万人，人均产值 5000元，总产值比上年增长 10％等。这些都是统计指标。

通俗来说统计指标就是：对现象总体进行统计分析得出的一个统计结果。

统计指标体系是指：由若干相互联系的统计指标构成的有机整体。 一个统计指标仅仅从一个侧面反映了总体的特征，总体特征是多方面的、复杂的，要全面、系统地反映总体特征，就必须建立统计指标体系。

设计指标体系的基本要求是：

科学性，即指标体系的设计要符合事物的特点，每一个指标的设计都符合统计指标的设计要求。
目的性，即指标体系的设计要考虑管理的要求或研究目的。
全面性，即指标体系的设计要全面，从不同侧面反映事物。
统一性，即指标体系的设计要三大核算统一。
可比性，即指标体系的设计要不同空间、不同时期可比。
核心性，即指标体系的设计要确定核心指标。
可行性，即指标体系的设计要保证每一个指标都能取得。
互斥性，即指标体系的设计要使指标之间相关程度弱，注重指标的代表性。

统计过程：

统计设计： 统计设计是指根据统计研究对象的性质和研究目的，对统计工作的各个方面和各个环节所作的全面部署和安排。
统计设计的最终结果表现为各种标准、规定、制度、方案和办法，如统计分类标准、目录、统计指标体系、统计报表制度、统计调查方案、普查办法、统计整理或汇总方案等等。

统计调查： 统计调查是根据统计方案的要求，采用各种调查组织形式和调查方法，有组织、有计划地对所研究总体的各个单位进行观察、登记，准确、及时、系统、完整地搜集统计原始资料的过程。

统计整理： 统计整理是根据统计研究的目的和任务，对统计调查阶段所取得的原始资料进行审核、分组和汇总，将分散的、零星的反映总体单位特征的资料转化为反映各组和总体数量特征的综合资料的过程。

统计分析： 统计分析是指在统计调查和统计整理的基础上，用科学的分析方法，对所研究的现象总体进行全面、系统的数量分析，认识和揭示事物的本质和规律性，进而向有关单位和部门提出咨询建议以及进行必要的分析、预测的统计工作过程。统计分析是统计工作的最后阶段，也是统计发挥信息、咨询和监督职能的关键阶段。

统计指标与NumPy：

统计指标就其具体内容来讲非常多，可谓成千上万，但从其基本形式看，则不外乎总量指标、相对指标和平均指标三种类型，统称统计综合指标。

用 Python 构造一组数据：

这里用Python构造了一组数据总量数为5000条的某公司职员收入表，构造代码如下：

import numpy as np
import random

# 构造5000个人名
n_1 = list('赵钱孙李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华'
           '金魏陶姜戚谢邹喻柏水窦章云苏潘葛奚范彭郎鲁韦昌马苗凤花方')
n_2 = list('兰叶春葳蕤桂华秋皎洁欣欣此生意自尔为佳节'
           '谁知林栖者闻风坐相悦草木有本心何求美人折')
n_3 = list('江南有丹桔经冬犹绿林岂伊地气暖自有岁寒心可以荐佳客奈何阻重深'
           '徒言树桃李此木岂无阴运命唯所遇循环不可寻')

n = []
for i in range(6000):
    n.append(random.choice(n_1)
            +random.choice(n_2)+random.choice(n_3))
name = list(set(n))[:5000]
# print(name)

# 构造性别
g = ['男','女','男']
gender = [random.choice(g) for i in range(5000)]
# print(gender)

# 构造部门
p = ['人力','设计','运维','数据','开发','产品','客服','前端',
     '开发','产品','客服','前端','开发','产品','客服',