(一)Python的开发环境搭建主要是按先后顺序安装Numpy、Scipy、matplotlib和scikit-learn。numpy、scipy、matplotlib、scikit-learn,分别是科学计算包,科学工具集,画图工具包,机器学习工具集。
1、numpy :科学运算,主要是矩阵的运算。提供数组。
2、scipy:主要是一些科学工具集,信号处理工具集 数值计算。
3、scikit-learn:大量机器学习算法。
4、matplotlib:画图工具
而且为了方便进行机器学习在大数据环境下的进行,还搭建了 GraphLab Create,主要是为了应用里面的SFrame。我主要是用的64位的Python,否则应用GraphLab Create时会产生,
ImportError: No module named cy_unity
的问题。
(注:python使用pip最好在环境变量里加入pip的目录,具体的做法就百度一下吧,这里默认大家都设置好了。)
(二)要在cmd中更新pip:pip install --upgrade pip ,这样才能进行后续安装。接下来按顺序安装Numpy、Scipy、matplotlib和scikit-learn,实际测试发现有时候用pip install XXX来安装这些包大部分时间好用,但是有的包官方是没有64位支持的,而且总出错。如下图。
所以可以在下面这个非官方的Python库中寻找所需的包,找到对应版本下载。
http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn
这里专门针对的64位系统和64位的Python,所以选择下面这个。
这时,只要打开cmd 找到对应的下载目录,比如我的是在里面pip install下载的whl文件的文件名,回车确认就好了。
(三)对于GraphLab Create需要到http://www.dato.com/去申请,可以免费使用一年(这个可以忽略),这个和panda差不多,但是可以处理数据量大的情况。它会在申请结束后给你一个地址,利用pip下载就好了,或者直接利用这个地址下载那个文件,然后pip安装就可以了。如果想用Ipython notebook作为编译环境也可以,见我的另一个文章。