利用Python数据挖掘和机器学习的概述
前言:
本文主要描述了使用Python进行数据挖掘业务的优势并介绍了相关的数据处理工具包pandas和机器学习算法库scikit-learn。
为什么使用python进行数据分析?
对很多人来说,Python是一种很容易让人喜爱的语言,自从1991年Python创始以来, Python已经是最受欢迎的动态编程语言之一,其他的类似语言还有Perl,Ruby等等,Python和Ruby变的特别流行是因为他们拥有庞大的网页框架,例如Django(Python),可以方便的搭建网站,这些语言被称为“脚本语言”因为他们经常被用来做一些短小精悍的程序和编写脚本,与底层语言C/C++搭配可以发挥很大的作用。我不喜欢“脚本语言”这个叫法,因为这种叫法包含着这些语言无法胜任任务指向性的软件的意味。在解释执行语言当中,Python以其强大而活跃的科学计算社区而著称,最近几年,Python科学计算方面的功能在工业界和科学研究界中的应用显著增长。
在数据分析和交互,以及数据挖掘和可视化方面,Python不可避免的被拿来与其他一些主流的广泛使用的开源或商用的编程语言和数据挖掘工具进行比较,例如R(前面几篇文章对R语言进行了调研),MATLAB,SAS,Stata等,最近几年Python在相关的扩展库的帮助下(主要是pandas)已经成为完成数据操控任务强有力的工具,再加上Python相比于其他语言和工具(上述)更加主流的优势,使得python成为了一个用来构建以数据为中心的应用软件的良好选择