一,Python 数据分析环境
数据分析领域有很多可选方案,例如SPSS傻瓜式分析工具,SAS专业性商业分析工具,R和python这类需要代码编程类的工具。个人选择是python这类,包括pandas,numpy,matplotlib,sklearn,keras。基于jupyter或者zeppelin作为编程界面,可以用python开发出比较清爽的数据分析报告。
总体来说,jupyter notebook编写的分析结果基本上可以满足要求,但是也有些弊端,例如无法做很好的presentation,虽然可以通过convert slides得到比较好的presentation胶片,但是无法展现直观的数据流和数据分析流程。
理想的数据分析应该包括:清晰的数据流和数据分析流程;直观的数据分析结果报告。
经过对多种开源方案的比较,我选择使用knime+python的方案,可以有以下的优点:
① 利用python和相关数据分析库的能力,对数据建模、分析、可视化,这块基于Anaconda;
② 利用knime的可视化数据流和report design能力,对数据ETL、建模、分析、报告。
二,knime + python
1. anaconda建立数据分析环境
一般需要使用到的库包括:pandas,seanborn,numpy,scipy,statsmodel,matplotlib,keras,Ten