41款实用工具,数据获取、清洗、建模、可视化都有了

本文介绍了数据科学活动中各个阶段的实用工具,包括数据获取、清洗、管理、建模和可视化。提到了如Lavastorm、IBM InfoSphere、SAS数据质量服务器等数据清洗工具,以及CA ERwin数据建模、Oracle SQL Developer Data Modeler等建模工具,还列举了Dygraphs、ZingChart等数据可视化工具。
摘要由CSDN通过智能技术生成

640?wx_fmt=gif

导读:在数据科学活动的不同阶段,有很多可用的支持工具和技术。本文介绍各种活动阶段使用的工具和技术,如数据获取、数据清洗、数据管理、建模、模拟和数据可视化。


作者:拉金德拉·阿卡拉卡(Rajendra Akerkar)、普里蒂·斯里尼瓦斯·萨加(Priti Srinivas Sajja)

如需转载请联系大数据(ID:hzdashuju)


640?wx_fmt=jpeg


诸如结构式访谈、非结构式访谈、开放式问卷调查、封闭式问卷调查、记录评论和观察等技术统称为事实调查方法。这种事实调查方法和其他数据获取方法可以采取自动化,而不必使用人工方法。


使用具有专用软件的物理设备(如终端、传感器和扫描仪等)也可用于管理物理设备和系统之间的接口。随后,这些数据可以通过典型的编程语言(如Java、Visual Basic、C++、MatLab和Lisp)来进行部分管理。也可使用开源和专用的数据采集软件,如MIDAS(最大集成数据采集系统)。


通常,数据采集系统是作为一个专用的独立系统而开发的,这种系统被称为数据记录器。在有特殊需求的情况下,系统的工作模型已准备好,并且也已呈现给了数据科学家。这样的原型有助于用户在系统实际构建之前测试数据获取机制。这有助于收集额外要求并测试已提出系统的可行性。


这里有发现更高层次内容的知识获取和机器学习方法(例如从资源中自动地获取信息和知识),这种知识获取方法的例子如概念图、审计、神经网络和其他与自动知识发现相关的方法。


在其他工具中,数据清洗工具数据管理和建模工具以及数据可视化工具都非常重要。本文列出了不同类别中的一些主要工具。


640?wx_fmt=jpeg



01 数据清洗工具


一旦完成数据收集,便需要检查其清洁度。数据清洗通常称为数据净化,即其数据从源中删除或更正脏数据的过程。数据声明程序的目标是识别和消除数据中的错误,为进一步分析、建模和可视化提供一致的数据。


在数据项层级上,一些不正确的数据通过适当的验证被拒绝。在诸如文件和数据库的同构数据集合中,不一致程度和错误数量较少。在来自多个数据源的具有异构性质的大型数据库(如数据仓库、联邦数据库系统或全球基于Web的系统)中,数据清洗变得至关重要。


产生这些问题的原因有:


(1)不同的格式

(2)冗余数据

(3)数据使用的术语和标准不同

(4)合并数据使用的方法


删除不准确的、不完整或不合理的数据会提高数据的质量。缺失值、特殊值、范围检查、演绎修正、插值、最小值调整、错字、审计和工作流规范检查等是数据清洗的常用机制。


除了编程语言外,常用的数据清理工具如下所列。


1. Lavastorm分析


用于分析引擎等产品。


www.lavastorm.com


2. IBM InfoSphere信息服务器


分析、理解、清洗、监视、转换和传输数据。


http://www-03.ibm.com/software/products/en/infosphere-information-server/


3. SAS数据质量服务器


清洗数据,并在数据流管理服务器上执行作业和服务。


www.sas.com


4. Oracle的主数据管理(MDM)


是处理大量数据,并且提供诸如合并、清洗、扩充和同步企业的关键业务数据对象等服务的解决方案。


http://www.oracle.com/partners/en/most-popular-resources/059010.html


5. 益百利 QAS清洗服务


为地址验证提供CASS认证(编码精度支持系统)。


http://www.qas.co.uk/


6. NetProspex


为数据清理、追加以及正在进行的市场数据管理提供支持。在印度,它现在是邓白氏信息服务公司的一部分,其提供数据管理转换和数据质量程序。


http://www.netprospex.com/

http://www.dnb.co.in/


7. Equifax


</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值