数据清洗工具OpenRefine

作者:chszs,转载需注明。博客主页: http://blog.csdn.net/chszs

数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。
怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。

一、介绍OpenRefine


我们来看一个残酷的现实:你的数据是杂乱无章的。错误会散步到你的大数据集中,无论你有多么细心,错误总是存在。数据量越大,错误越多。

正确且清晰地认识以上的现状,是我们开始使用OpenRefine的前提。于是有了数据质量的说法。
下面先熟悉三个基础概念。

数据剖析Data Profiling :也叫做数据考古(Data Archeology),是数据集(Data Set)内部为达一致性、单值性和逻辑性而进行的数值质量的统计分析及评估。数据剖析是Olson于2003年提出的概念,使用分析技术来发现正确的、结构化的、有内容、有质量的数据。换句话说,它是评估你的数据和信息的当前状态以及包含了多少错误的方法。

数据清洗Data Cleaning :是尝试通过移除空的数据行或重复的数据行、过滤数据行、聚集或转换数据值、分开多值单元等,以半自动化的方式修复错误数据的过程。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问题,解决问题。对于是否过滤,是否修正一般要求客户确认。

IDTs :Interactive Data Transformation tools,交互数据转换工具,它可以对大数据进行快速、廉价的操作,使用单个的集成接口。

OpenRefine就是这样的IDT工具,可以观察和操纵数据的工具。它类似于传统Excel的表格处理软件,但是工作方式更像是数据库,以列和字段的方式工作,而不是以单元格的方式工作。这意味着OpenRefine不仅适合对新的行数据进行编码,而且功能还极为强大。

二、安装OpenRefine

要学习OpenRefine,首先需要下载最新版本的OpenRefine。
下载地址: http://openrefine.org/
OpenRefine最早是众所周知的Freebase Gridworks,随后又变成Google Refine,几年后又被社区接管,在2012年10月变成了彻底开源的OpenRefine。
OpenRefine 2.6版是它改名为OpenRefine的第一个发行版本。
如果你对OpenRefine的开发版感兴趣,可以访问:https://github.com/OpenRefine.OpenRefine
OpenRefine基于Java环境,因此是跨平台的。

OpenRefine 2.6版目前还处于Beta1版,也是所谓的开发版,不适合在生产环境中使用。如果要选择稳定版,那么还是该下载Google Refine 2.5版。

1、OpenRefine在Windows的安装
1)下载ZIP包,地址:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.zip ;
2)解压到某个目录;
3)要运行OpenRefine,双击openrefine.exe文件。


2、OpenRefine在Mac的安装

1)下载DMG文件:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.dmg ;
2)打开磁盘镜像,拖动OpenRefine的图标到Applications目录;
3)双击图标以启动OpenRefine。

3、OpenRefine在Linux的安装
1)下载gzipped包:https://github.com/OpenRefine/OpenRefine/releases/download/2.5/google-refine-2.5-r2407.tar.gz ;
2)解压到当前用户的home目录;
3)在终端命令行环境,键入./refine以启动OpenRefine。



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: OpenRefine是一种免费、开源的数据清洗和转换工具,它最初名为Google Refine,是由Google赞助开发的。OpenRefine可以导入多种格式的数据,如CSV、TSV、Excel、JSON等,然后可以执行各种数据清理和转换操作,例如拆分单元格、合并列、重命名列、去重、筛选和转换数据类型等。OpenRefine还具有强大的文本处理功能,例如正则表达式搜索和替换、字符串分割和连接等。此外,OpenRefine还可以执行高级操作,如对数据进行聚合和分组、执行自定义脚本等。总之,OpenRefine是一个非常实用的工具,可以帮助人们更轻松地处理和转换各种数据。 ### 回答2: OpenRefine是一款开源的数据清洗工具,它能够帮助用户处理、清理和转换大规模数据集。OpenRefine的主要功能包括数据清洗、数据转换和数据整合等。 在数据清洗方面,OpenRefine提供了一系列的数据处理方法,如删除重复项、填充缺失值、修改数据格式等。用户可以利用这些功能快速检测和修复数据中的错误和异常。 在数据转换方面,OpenRefine支持多种数据格式之间的转换。用户可以将数据集从一个格式转换为另一个格式,使得数据能够在不同的应用程序中进行交互和使用。 在数据整合方面,OpenRefine可以将来自不同来源的数据进行整合。用户可以导入多个数据集,并通过OpenRefine进行数据清洗和整合,从而创建一个统一的数据集。同时,OpenRefine还提供了强大的筛选和搜索功能,使用户能够更好地理解和分析数据。 OpenRefine的使用非常简单,它提供了一个直观的用户界面和大量的操作支持。用户可以通过图形化界面进行操作,也可以使用OpenRefine提供的GREL(General Refine Expression Language)语言进行高级数据转换和整合。 总结来说,OpenRefine是一款功能强大、易于使用的数据清洗工具,它为用户提供了丰富的功能和灵活的操作方式,帮助用户处理和整理数据,使数据变得更加准确、一致和可用。 ### 回答3: OpenRefine(前身为Google Refine)是一款开源的数据清理工具,旨在帮助用户整理和清洗大量的数据。它提供了一个简单易用的用户界面,使得数据清理变得更加高效和便捷。 OpenRefine主要通过自动化和人工交互的方式对数据进行清洗和整理。它支持导入多种格式的数据,例如CSV、Excel和JSON等。用户可以通过OpenRefine快速分析和检测数据中的错误、重复、格式问题等,并进行相应的处理。 OpenRefine的主要功能包括数据过滤、数据转换、数据重构和数据修复等。用户可以使用过滤功能,根据自定义的规则筛选和过滤数据,以便快速定位和处理有问题的记录。数据转换功能可以对数据进行格式转换、拆分和合并等操作,使用户能够更方便地处理多样化的数据需求。数据重构功能则允许用户根据特定的模式和规则对数据进行重组和转换。如果数据中存在错误或者缺失,OpenRefine还提供了修复功能,帮助用户快速修复数据中的问题。 使用OpenRefine还可以进行数据可视化,其内置的图表和统计功能可以帮助用户更好地理解数据的分布和趋势。 总之,OpenRefine是一款强大的数据清理工具,通过其自动化和人工交互的方式,可以帮助用户快速有效地处理和清洗大量的数据,提高数据质量和可用性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值