数据挖掘---六种最值得推荐的开源工具_数据建模开源工具-CSDN博客

原标题：Six of the Best Open Source Data Mining Tools

地址链接：http://thenewstack.io/six-of-the-best-open-source-data-mining-tools/
作者：Chandan Goopta是加德满都大学（尼泊尔）的数据研究员，专注于构建情感分析的智能算法。

当前社会，说“数据就是金钱”是一点都不为过的。

在我们向一个基于app的世界转变时，数据发生了指数级的增长。然而，这些数据大部分都是松散的，是非结构化的，为了把它们提炼并构建为一种易懂和易用的形式，数据挖掘应运而生。现在我们可以看到许多利用人工智能，机器学习等提取数据的技术进行数据挖掘的工具。

这里特意推荐六种强大的开源数据挖掘工具：

1.RapidMiner(以前叫YALE)

RapidMiner是以java开发的，通过其基于模板的框架来提供高级数据分析，好处是：用户几乎不用写任何代码。它不是一个本地软件，而是作为一种服务被提供，现在占据着数据挖掘工具排行榜的首位。

除了数据挖掘，RapidMiner还提供了其他功能，如：数据预处理和可视化、预测分析和统计建模、评估和部署。此外，它还能集成基于WEKA和R scripts的学习方案、模型和算法，以此来满足你更高级的需求。

RapidMiner是基于AGPL协议（可以认为是GPL协议的进阶协议）的，它在SourceForge被认为是最好的商业分析软件，同时你也可以在SourceForge下载它。

2.WEKA

WEKA最初是非java的，专门用于农业领域的数据分析。随着WEKA的java版本的发布，WEKA变得更加多面手，许多为数据分析和预测建模提供可视化和算法的应用都会用到它。WEKA是基于GNU的自由软件，同RapidMiner相比，这是它的一大亮点，因为用户可以根据自己的意愿来随意定制。

WEKA支持多种数据挖掘的经典任务，包括数据预处理、集群、分类、回归、虚拟化和功能选择。

WEKA的现有版本还没有内置sequence modeling（序列建模），加上它WEKA会变得更加功能强大。

3.R-Programming

R Project的核心是用C和Fortran写的，但大部分的模块都是使用R本身开发的。它免费提供了统计计算和统计制图的语言和软件环境。R语言被广泛用于数据分析和统计软件开发时的数据挖掘，易用性和扩展性造就了R的脱颖而出。

除了数据挖掘，R还提供了数据统计和图形技术，包括：线性和非线性建模，经典统计测试，时间序数分析，分类、集群等等。

4.Orange

如果你是一个Python开发者，使用Orange绝对没错。Orange是绑定Python进行开发的开源工具，不管你是新手还是专家，Orange 都能满足你的需求。

Orange的可视化编程和Python脚本,会让你一使用就彻底的爱上它。Orange是基于组件的工具，包括了关于机器学习，生物信息和文本挖掘方面等的组件，涵盖了数据分析的许多方面。

5.KNIME

KNIME在数据预处理的三个主要组件（提取，转换和加载）都表现出色。它提供了一个开源的数据分析、报告和集成平台，让用户以可视化的方式处理数据，有选择的运行一些或全部的分析步骤。KNIME提出了一种模块化数据流水线的概念，通过这种概念它集成了多种机器学习和数据挖掘方面的组件，而且已经在商业智能和金融数据分析方面有所建树。

KNIME是基于eclipse开发的java项目，非常容易扩展和作为插件被集成。大量的数据集成模块已经随着核心版本同时发布了。

6.NLTK