| 1.1 为什么是Python?
首先恭喜你朝着成为数据科学家迈出了一大步!
在本系列中,你将了解到数据科学中最流行的Python库:
numpy、pandas 和 matplotlib。
我们将解决现实生活中的问题,解决挑战,分析真实数据,并将数据洞察可视化。
Tips :如果你不熟悉Python基础语法,可以去看我之前的《从零玩转python编程》系列文章。
Python优势
Python是数据科学领域排名第一编程语言,理由相当充分:
-
Python易于学习
-
语法易于阅读和理解
-
有许多有用的库来执行计算和其他操作
Tips :通常与其他编程语言相比,Python代码也更短。
| 2.1 统计数据
数据科学使用各种技术和方法从数据中提取知识和见解。让我们先深入了解一些统计学的基础知识。这些概念构成了数据分析的主要组成部分。
| 作为示例数据集,让我们考虑一组产品的价格:
[18, 24, 67, 55, 42, 14, 19, 26, 33]
给定的数据集包括 9 种产品的价格。
| 2.1.1 平均数
平均数是数据集的平均值。我们可以通过将所有价格加在一起并除以产品数量来计算它:
数学表示:
均值 = 298/9 = 33.1
Tips :请注意,平均值通常不是我们数据集的一部分。
| 2.1.2 中位数
另一个有用的概念是中位数:有序数据集的中间值。要计算价格数据集的中位数,让我们先按升序对其进行排序:
[14, 18, 19, 24, 26, 33 ,42, 55, 67]
中位数是 26,因为这是中间值。如果我们的数据集有偶数个值,我们将取中间的两个值并计算它们的平均值。中位数通常比平均值更有用。这是因为平均值可能会因一个值比其他值大很多或小很多而变化很大。
Tips :平均值和中位数称为中心趋势的度量,因为它描述了我们数据的中心在哪里。
| 2.1.3 标准差
标准偏差是衡量我们的数据分布情况的指标。
要计算它,我们首先需要计算一个称为方差的值:它是均值的平方差的平均值。
方差数学公式:
因此,对于我们的价格数据:
[14, 18, 19, 24, 26, 33 ,42, 55, 67]
平均值为 33.1。为了计算方差,我们取每个值与均值之间的差值,平方,然后对结果求平均值:方差 = 292.5
现在我们取方差的平方根,得到标准偏差:std = 17.1
现在,我们可以检查哪些年龄在平均值 (33.1) - 从 (33.1-17.1) 到 (33.1+17.1) 的一个标准差 (17.1) 内:
[14, 18, 19, 24, 26, 33, 42, 55, 67]
如你所见,9个值中有6个在该范围内。
Tips :低标准偏差表示这些值往往接近集合的平均值,而高标准偏差表示这些值分布在更宽的范围内。
| 3.1 写在最后
本节给大家介绍了如何计算数据集的主要汇总统计量:平均数、中位数和标准差。这些统计信息提供有关数据集的信息,并帮助您了解数据值的位置以及它们的分布方式。Python提供了为您计算汇总统计数据的库。我们将在后面的内容中了解它们。希望大家还是动手做一做,有问题可以私信我,欢迎交流和提出您的宝贵意见。
你要偷偷学Python,然后惊艳所有人。
-END-
感谢大家的关注
你关心的,都在这里