原标题:Six of the Best Open Source Data Mining Tools
地址链接:http://thenewstack.io/six-of-the-best-open-source-data-mining-tools/
作者:Chandan Goopta是加德满都大学(尼泊尔)的数据研究员,专注于构建情感分析的智能算法。
当前社会,说“数据就是金钱”是一点都不为过的。
在我们向一个基于app的世界转变时,数据发生了指数级的增长。然而,这些数据大部分都是松散的,是非结构化的,为了把它们提炼并构建为一种易懂和易用的形式,数据挖掘应运而生。现在我们可以看到许多利用人工智能,机器学习等提取数据的技术进行数据挖掘的工具。
这里特意推荐六种强大的开源数据挖掘工具:
1.RapidMiner(以前叫YALE)
RapidMiner是以java开发的,通过其基于模板的框架来提供高级数据分析,好处是:用户几乎不用写任何代码。它不是一个本地软件,而是作为一种服务被提供,现在占据着数据挖掘工具排行榜的首位。
除了数据挖掘,RapidMiner还提供了其他功能,如:数据预处理和可视化、预测分析和统计建模、评估和部署。此外,它还能集成基于WEKA和R scripts的学习方案、模型和算法,以此来满足你更高级的需求。
RapidMiner是基于AGPL协议(可以认为是GPL协议的进阶协议)的,它在SourceForge被认为是最好的商业分析软件,同时你也可以在SourceForge下载它。
2.WEKA
WEKA最初是非java的,专门用于农业领域的数据分析。随着WEKA的java版本的发布,WEKA变得更加多面手,许多为数据分析和预测建模提供可视化和算法的应用都会用到它。WEKA是基于GNU的自由软件,同RapidMiner相比,这是它的一大亮点,因为用户可以根据自己的意愿来随意定制。
WEKA支持多种数据挖掘的经典任务,包括数据预处理、集群、分类、回归、虚拟化和功能选择。
WEKA的现有版本还没有内置sequence modeling(序列建模),加上它WEKA会变得更加功能强大。
3.R-Programming
R Project的核心是用C和Fortran写的,但大部分的模块都是使用R本身开发的。它免费提供了统计计算和统计制图的语言和软件环境。R语言被广泛用于数据分析和统计软件开发时的数据挖掘,易用性和扩展性造就了R的脱颖而出。
除了数据挖掘,R还提供了数据统计和图形技术,包括:线性和非线性建模,经典统计测试,时间序数分析,分类、集群等等。
4.Orange
如果你是一个Python开发者,使用Orange绝对没错。Orange是绑定Python进行开发的开源工具,不管你是新手还是专家,Orange 都能满足你的需求。
Orange的可视化编程和Python脚本,会让你一使用就彻底的爱上它。Orange是基于组件的工具,包括了关于机器学习,生物信息和文本挖掘方面等的组件,涵盖了数据分析的许多方面。
5.KNIME
KNIME在数据预处理的三个主要组件(提取,转换和加载)都表现出色。它提供了一个开源的数据分析、报告和集成平台,让用户以可视化的方式处理数据,有选择的运行一些或全部的分析步骤。KNIME提出了一种模块化数据流水线的概念,通过这种概念它集成了多种机器学习和数据挖掘方面的组件,而且已经在商业智能和金融数据分析方面有所建树。
KNIME是基于eclipse开发的java项目,非常容易扩展和作为插件被集成。大量的数据集成模块已经随着核心版本同时发布了。
6.NLTK
谈到语言处理任务,没有比NLTK更牛的了。NLTK提供了包括数据挖掘,机器学习,数据抓取,情感分析及其他语言处理任务的一揽子工具。你需要做的仅仅是安装NLTK,下载任务相关包而已。因为它是用Python写的,所以你要基于此来定制任务和构建应用。