《Python数据分析基础教程》学习笔记。
第2章 Python与数据分析
2.1 Python数据分析常用的类库
类库是用来实现各种功能的类的集合。
-1. NumPy
NumPy(Numerical Python)是Python科学计算的基础包,提供以下功能:
- 快速高效的多维数组对象ndarrray是其核心。
- 用于对数组执行元素计算和直接对数组执行数学运算的函数。
- 用于读写硬盘上基于数组的数据集的工具。
- 线性代数运算、傅里叶变换,以及随机数生成。
- 用于将C、C++、Fortran代码集成到Python的工具。
- 作为算法之间传递数据的容器。
-2. pandas
pandas是Python数据分析的核心库,是基于NumPy构建的含有复杂数据结构和工具的数据分析包。
pandas围绕着Series(一维序列)和DataFrame(二维序列)着两个核心数据结构展开的。
pandas提供了复杂精细的索引功能,以便快捷地完成重塑、切片、聚合和选取数据子集等操作。
-3. Matplotlib
Matplotlib是最流行的用于绘制数据图表的Python库,非常适合创建出版物中的图表。
-4. SciPy
SciPy是一组专门用于科学计算的开源Python库,它构建于NumPy的基础之上,提供了一个用于在Python中进行科学计算的工具集。
SciPy经常于NumPy、pandas、Matplotlib和IPython这些核心库一起使用。
-5. scikit-learn
scikit-learn 是一个简单有效的数据挖掘和数据分析工具,可供用户在各种环境下重复使用。是建立在NumPy、SciPy和Matplotlib的基础上的,对一些常用的算法进行了封装。
scikit-learn 的基本功能主要为:
- 分类
- 回归
- 聚类
- 数据降维
- 模型选择
- 数据预处理
-6. IPython
IPython 是Python科学计算标准工具集的组成部分,它为交互式和探索式计算机提供了一个高效的开发环境。
2.2 Jupyter Notebook
Jupyter Notebook(又称 IPython Notebook)是一个交互式的在线编辑器,它可以每编辑一行代码就运行该行代码,并且将运行的结果显示在代码的下方。
Jupyter Notebook本质上是一个支持实时代码、数学方程式、可视化和Markdown的Web应用程序。它的用途:
- 数据清理和转换
- 数值模拟
- 统计建模
- 数据可视化
- 机器学习