《 利用Python进行数据分析》(一)
本节介绍了Python用来进行数据分析的几个常用库:Numpy、pandas、matplotlib以及IPython交互式环境
重要的Python库
NumPy
- 科学计算基础包
- 多位数组对象ndarray
- 数组数学运算
- 读写硬盘上的数组类型数据集
- 线性代数 傅立叶变换
- 将C C++集成到Python的工具
pandas
- 处理结构化数据
- 对象 DataFrame-二维表结构
- 兼具数组计算和关系型数据库的数据处理功能
- 索引 重塑 切片聚合等数据子集操作
matplotlib
- 绘制二维数据图表
- 和IPython结合交互式绘图环境
IPython
- 交互式环境
- 分布式计算基础架构
Jupyter
- 用于编写、测试、调试Python代码的强化shell
scikit-learn
- 通用机器学习工具包
- 子模块
- 分类:SVM、近邻、随机森林、逻辑回归
- 回归
- 聚类
- 降维
- 选型
- 预处理
SciPy
-
标准问题域包集合
-
子模块
-
数值积分 微分方程
-
矩阵分解
-
信号处理
-
稀疏矩阵、稀疏系统求解器
-
常用数学函数
-
statsmodels
- 一个统计分析包
- 子模块
- 回归模型
- 方差分析
- 时间序列分析
- 非参数方法
- 统计模型结果可视化
一些论坛和帮助网站
- pydata
- pystatsmodels
- numpy-discussion
- scipy-user
- http://github.com/pydata/pydata-book