使用OpenRefine清洗数据实例

1.OpenRefine的下载与安装

进入OpenRefine官网
在这里插入图片描述
若选择第一种即Windows kit,则需要相应的Java环境且Java环境不支持高版本,若选择第二种即Windows kit with embedded Java, 则不需要Java环境更为简便,两种方法均为下载压缩包,并对其进行解压,解压后双击openrefine.exe运行
在这里插入图片描述

2.处理缺失数据

2.1为缺失数据添加默认值

针对不同类型添加不同的默认值,例如对于名字的列缺失则默认值为NULL,而对于人数或钱数等数字列默认值设为该列的平均值。
具体做法为鼠标点击空白单元格的edit,如图所示,输入设定的默认值,点击Apply to All Identical Cells
在这里插入图片描述
完成后则会显示你已更改的数目以及撤销动作undo
在这里插入图片描述

3.重命名列名

具体操作为选择某一列,点击edit the column,点击rename the column,输入列的新名称点击确定如图
在这里插入图片描述
例如将该列的名字director_name改为directors_name
在这里插入图片描述

4.移动列的顺序

由于数据的某些列是同一类型的但没有放到邻近的列所以杂乱无章,对数据管理时要调整某些列的顺序
例如将actor_2_name与actor_1_facebook_likes进行调换可以方便对比actor_1_facebook_likes与actor_3_facebook_likes的受欢迎度
在这里插入图片描述
在这里插入图片描述

5.总结

5.1OpenRefine简介

OpenRefine是一个开源软件,是可以观察和操纵数据的工具,它不仅可以快速简单地清理数据,还可以让非编程人员轻松地看见和使用数据,它类似于传统的Excel的表格处理软件,但工作方式更像数据库,以列和字段的方式工作,而非以单元格的方式工作,意味着OpenRefine不仅适合对新的行数据进行编码,而且功能十分强大。

5.2列的操纵

OpenRefine对于列的操作十分便利,具有隐藏、展开、按需要转换、移动、重命名、和删除操作,可以直观方便观察、分析和操纵数据。
缺点是列的移动不能指定插入的列数,只能向左、向右、到头部和到尾部移动比较繁琐

5.3分析数据

分析数据包括排序和各类透视功能还包括文本过滤和检重,相似类型或文本的聚类操作,在选择数据时,有时筛选条件并不是那么严格时可能会选择好几类相似的数据,此时如果每次都要分别去选择特定的数据未免有些麻烦,此时就需要用聚类的方法对相似的数据类进行聚类,它提供了方便的聚类操作,可以清楚分类

5.4具有项目操作历史和导出项目

OpenRefine项目创建后,会在项目创建后保存所有的操作步骤,所以可以随便尝试各种变换数据
还可以将操作完成后的数据以csv、tsv、excel和open document格式还有不常用的RDF格式,还可以导出openrefine压缩包和自定义导出设置等

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值