Python数据分析经常使用到的生态库

一 、 Numpy库
NumPy(Numerical Python的简称)是Python科学计算的基础包。本书大部分内容都基
于NumPy以及构建于其上的库。它提供了以下功能(不限于此):
1、快速高效的多维数组对象ndarray。
2、用于对数组执行元素级计算以及直接对数组执行数学运算的函数。
3、用于读写硬盘上基于数组的数据集的工具。
4、线性代数运算、傅里叶变换,以及随机数生成。
5、用于将C、C++、Fortran代码集成到Python的工具。
除了为Python提供快速的数组处理能力,NumPy在数据分析方面还有另外一个主要作
用,即作为在算法之间传递数据的容器。对于数值型数据,NumPy数组在存储和处理数
据时要比内置的Python数据结构高效得多。此外,由低级语言(比如C和Fortran)编写
的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作。

import numpy as np
data1=[5,7,9,20]#列表类型 list  数组
arr1=np.array(data1)  #ndarray数组类型  numpy.ndarray
print(data1)

二、 pandas库
pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。你很快就
会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。本书用得最多
的pandas对象是DataFrame,它是一个面向列(column-oriented)的二维表结构,且含有
行标和列标:

import numpy as np
from pandas import Series,DataFrame
import pandas as pd
obj5=DataFrame(np.random.randn(3,3),columns=['b','c','a',])
print("输出二维数组DataFrame:")
print(obj5)

pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活
的数据处理功能。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切
块、聚合以及选取数据子集等操作。pandas将是我在本书中使用的主要工具。
对于金融行业的用户,pandas提供了大量适用于金融数据的高性能时间序列功能和工
具。事实上,我一开始就是想把pandas设计为一款适用于金融数据分析应用的工具。
对于使用R语言进行统计计算的用户,肯定不会对DataFrame这个名字感到陌生,因为它源自于R的data.frame对象。但是这两个对象并不相同。R的data.frame对象所提供的
功能只是DataFrame对象所提供的功能的一个子集。虽然本书讲的是Python,但我偶尔
还是会用R做对比,因为它毕竟是最流行的开源数据分析环境,而且很多读者都对它很
熟悉。
pandas这个名字本身源自于panel data(面板数据,这是计量经济学中关于多维结构化数
据集的一个术语)以及Python data analysis(Python数据分析)。

三、matplotlib库
matplotlib是最流行的用于绘制数据图表的Python库。它最初由JohnD.Hunter(JDH)
创建,目前由一个庞大的开发人员团队维护。它非常适合创建出版物上用的图表。它跟
IPython(马上就会讲到)结合得很好,因而提供了一种非常好用的交互式数据绘图环
境。绘制的图表也是交互式的,你可以利用绘图窗口中的工具栏放大图表中的某个区域
或对整个图表进行平移浏览。

四、IPython
IPython是Python科学计算标准工具集的组成部分,它将其他所有的东西联系到了一起。
它为交互式和探索式计算提供了一个强健而高效的环境。它是一个增强的Python shell,
目的是提高编写、测试、调试Python代码的速度。它主要用于交互式数据处理和利用
matplotlib对数据进行可视化处理。我在用Python编程时,经常会用到IPvthon,包括运
行、调试和测试代码。
除标准的基于终端的IPython shell外,该项目还提供了:
一个类似于Mathematica的HTML笔记本(通过Web浏览器连接IPython,稍后将对
此进行详细介绍)。
一个基于Ot框架的GUI控制台,其中含有绘图、多行编辑以及语法高亮显示等
功能。
。 用于交互式并行和分布式计算的基础架构。
我将在一章中专门讲解IPython,详细地介绍其大部分功能。强烈建议在阅读本书的过程
中使用IPython。

五、SciPy
SciPy是一组专门解决科学计算中各种标准问题域的包的集合,主要包括下面这些包:
scipy.integrate:数值积分例程和微分方程求解器。
scipy.linalg:扩展了由numpylinalg提供的线性代数例程和矩阵分解功能。
scipy.optimize:函数优化器(最小化器)以及根查找算法。
scipy.signal:信号处理工具。
scipysparse:稀疏矩阵和稀疏线性系统求解器。
scipy.special:SPECFUN(这是一个实现了许多常用数学函数(如伽玛函数)的
Fortran库)的包装器。
scipy.stats:标准连续和离散概率分布(如密度函数、采样器、连续分布函数
等)、各种统计检验方法,以及更好的描述统计法。
scipy.weave:利用内联C++代码加速数组计算的工具。
NumPy跟SciPy的有机结合完全可以替代MATLAB的计算功能(包括其插件工具箱)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小懵牛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值