数据是企业最宝贵的信息资源。我们通过数据分析和数据挖掘可以发现新的商机,从而创造出新的价值。
本专栏以《利用python进行数据分析》一书为基础,分段讲解Ipython、numpy、pandas、matplotlib、SciPy Python库的安装和使用。本专栏使用的数据为开源的MovieLens 1M数据集。
- Ipython
IPython 是增强python shell,可以提高编写、测试、调试python代码的速度。
- numpy
numpy ,全称为Numerical Python,是python科学计算的基础包,提供了高效的多维数组对象ndarray。
- pandas
pandas 提供了能够快速和便捷地处理结构化数据的大量数据结构和函数,pandas在兼容numpy高性能的数据计算功能的同时提供关系型数据库灵活的数据处理能力。
- matplotlib
matplotlib 从名字可以看出是移植的MATLAB的plot函数,也是最为流行的绘制数据表的python库。
- SciPy
scipy 是一组专门解决科学计算中各种标准问题域的包的集合。