数据挖掘---六种最值得推荐的开源工具

原标题:Six of the Best Open Source Data Mining Tools

地址链接:http://thenewstack.io/six-of-the-best-open-source-data-mining-tools/  
作者:Chandan Goopta是加德满都大学(尼泊尔)的数据研究员,专注于构建情感分析的智能算法。


当前社会,说“数据就是金钱”是一点都不为过的。


在我们向一个基于app的世界转变时,数据发生了指数级的增长。然而,这些数据大部分都是松散的,是非结构化的,为了把它们提炼并构建为一种易懂和易用的形式,数据挖掘应运而生。现在我们可以看到许多利用人工智能,机器学习等提取数据的技术进行数据挖掘的工具。


这里特意推荐六种强大的开源数据挖掘工具:

1.RapidMiner(以前叫YALE)


RapidMiner是以java开发的,通过其基于模板的框架来提供高级数据分析,好处是:用户几乎不用写任何代码。它不是一个本地软件,而是作为一种服务被提供,现在占据着数据挖掘工具排行榜的首位。


除了数据挖掘,RapidMiner还提供了其他功能,如:数据预处理和可视化、预测分析和统计建模、评估和部署。此外,它还能集成基于WEKA和R scripts的学习方案、模型和算法,以此来满足你更高级的需求。


RapidMiner是基于AGPL协议(可以认为是GPL协议的进阶协议)的,它在SourceForge被认为是最好的商业分析软件,同时你也可以在SourceForge下载它。


2.WEKA


WEKA最初是非java的,专门用于农业领域的数据分析。随着WEKA的java版本的发布,WEKA变得更加多面手,许多为数据分析和预测建模提供可视化和算法的应用都会用到它。WEKA是基于GNU的自由软件,同RapidMiner相比,这是它的一大亮点,因为用户可以根据自己的意愿来随意定制。


WEKA支持多种数据挖掘的经典任务,包括数据预处理、集群、分类、回归、虚拟化和功能选择。


WEKA的现有版本还没有内置sequence modeling(序列建模),加上它WEKA会变得更加功能强大。


3.R-Programming


R Project的核心是用C和Fortran写的,但大部分的模块都是使用R本身开发的。它免费提供了统计计算和统计制图的语言和软件环境。R语言被广泛用于数据分析和统计软件开发时的数据挖掘,易用性和扩展性造就了R的脱颖而出。


除了数据挖掘,R还提供了数据统计和图形技术,包括:线性和非线性建模,经典统计测试,时间序数分析,分类、集群等等。


4.Orange


如果你是一个Python开发者,使用Orange绝对没错。Orange是绑定Python进行开发的开源工具,不管你是新手还是专家,Orange 都能满足你的需求。


Orange的可视化编程和Python脚本,会让你一使用就彻底的爱上它。Orange是基于组件的工具,包括了关于机器学习,生物信息和文本挖掘方面等的组件,涵盖了数据分析的许多方面。


5.KNIME


KNIME在数据预处理的三个主要组件(提取,转换和加载)都表现出色。它提供了一个开源的数据分析、报告和集成平台,让用户以可视化的方式处理数据,有选择的运行一些或全部的分析步骤。KNIME提出了一种模块化数据流水线的概念,通过这种概念它集成了多种机器学习和数据挖掘方面的组件,而且已经在商业智能和金融数据分析方面有所建树。


KNIME是基于eclipse开发的java项目,非常容易扩展和作为插件被集成。大量的数据集成模块已经随着核心版本同时发布了。


6.NLTK


谈到语言处理任务,没有比NLTK更牛的了。NLTK提供了包括数据挖掘,机器学习,数据抓取,情感分析及其他语言处理任务的一揽子工具。你需要做的仅仅是安装NLTK,下载任务相关包而已。因为它是用Python写的,所以你要基于此来定制任务和构建应用。


  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值