41款实用工具，数据获取、清洗、建模、可视化都有了

大数据v

于 2019-06-09 21:15:00 发布

阅读量2.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zw0Pi8G5C1x/article/details/91448096

版权

本文介绍了数据科学活动中各个阶段的实用工具，包括数据获取、清洗、管理、建模和可视化。提到了如Lavastorm、IBM InfoSphere、SAS数据质量服务器等数据清洗工具，以及CA ERwin数据建模、Oracle SQL Developer Data Modeler等建模工具，还列举了Dygraphs、ZingChart等数据可视化工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

640?wx_fmt=gif

导读：在数据科学活动的不同阶段，有很多可用的支持工具和技术。本文介绍各种活动阶段使用的工具和技术，如数据获取、数据清洗、数据管理、建模、模拟和数据可视化。

作者：拉金德拉·阿卡拉卡（Rajendra Akerkar）、普里蒂·斯里尼瓦斯·萨加（Priti Srinivas Sajja）

如需转载请联系大数据（ID：hzdashuju）

640?wx_fmt=jpeg

诸如结构式访谈、非结构式访谈、开放式问卷调查、封闭式问卷调查、记录评论和观察等技术统称为事实调查方法。这种事实调查方法和其他数据获取方法可以采取自动化，而不必使用人工方法。

使用具有专用软件的物理设备（如终端、传感器和扫描仪等）也可用于管理物理设备和系统之间的接口。随后，这些数据可以通过典型的编程语言（如Java、Visual Basic、C++、MatLab和Lisp）来进行部分管理。也可使用开源和专用的数据采集软件，如MIDAS（最大集成数据采集系统）。

通常，数据采集系统是作为一个专用的独立系统而开发的，这种系统被称为数据记录器。在有特殊需求的情况下，系统的工作模型已准备好，并且也已呈现给了数据科学家。这样的原型有助于用户在系统实际构建之前测试数据获取机制。这有助于收集额外要求并测试已提出系统的可行性。

这里有发现更高层次内容的知识获取和机器学习方法（例如从资源中自动地获取信息和知识），这种知识获取方法的例子如概念图、审计、神经网络和其他与自动知识发现相关的方法。

在其他工具中，数据清洗工具、数据管理和建模工具以及数据可视化工具都非常重要。本文列出了不同类别中的一些主要工具。

640?wx_fmt=jpeg

01 数据清洗工具

一旦完成数据收集，便需要检查其清洁度。数据清洗通常称为数据净化，即其数据从源中删除或更正脏数据的过程。数据声明程序的目标是识别和消除数据中的错误，为进一步分析、建模和可视化提供一致的数据。

在数据项层级上，一些不正确的数据通过适当的验证被拒绝。在诸如文件和数据库的同构数据集合中，不一致程度和错误数量较少。在来自多个数据源的具有异构性质的大型数据库（如数据仓库、联邦数据库系统或全球基于Web的系统）中，数据清洗变得至关重要。

产生这些问题的原因有：

（1）不同的格式

（2）冗余数据

（3）数据使用的术语和标准不同

（4）合并数据使用的方法

删除不准确的、不完整或不合理的数据会提高数据的质量。缺失值、特殊值、范围检查、演绎修正、插值、最小值调整、错字、审计和工作流规范检查等是数据清洗的常用机制。

除了编程语言外，常用的数据清理工具如下所列。

1. Lavastorm分析

用于分析引擎等产品。

www.lavastorm.com

2. IBM InfoSphere信息服务器

分析、理解、清洗、监视、转换和传输数据。

http://www-03.ibm.com/software/products/en/infosphere-information-server/

3. SAS数据质量服务器

清洗数据，并在数据流管理服务器上执行作业和服务。

www.sas.com

4. Oracle的主数据管理（MDM）

是处理大量数据，并且提供诸如合并、清洗、扩充和同步企业的关键业务数据对象等服务的解决方案。

http://www.oracle.com/partners/en/most-popular-resources/059010.html

5. 益百利 QAS清洗服务

为地址验证提供CASS认证（编码精度支持系统）。

http://www.qas.co.uk/

6. NetProspex

为数据清理、追加以及正在进行的市场数据管理提供支持。在印度，它现在是邓白氏信息服务公司的一部分，其提供数据管理转换和数据质量程序。

http://www.netprospex.com/

http://www.dnb.co.in/

7. Equifax

</

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。