04.数据清洗与数据集成(数据科学概论)

本文基于《数据科学概论》,深入探讨数据清洗和数据集成的重要环节。数据清洗涉及数据异常的识别与处理,包括数据审计、数据解析、转换等步骤,确保数据质量和完整性。数据集成关注解决异构性问题,如模式、语义和取值差异,通过联邦数据库、数据仓库和中介者模式实现数据整合。
摘要由CSDN通过智能技术生成

前言:基于人大的《数据科学概论》。第四章,数据清洗与数据集成。主要内容分为三部分:数据抽取、转换和装载;数据清洗;数据集成。

一、数据抽取、转换和装载

简说:面向数据服务(或者OLTP)应用的数据库,一般不运行特别复杂的数据分析任务。

  • 为了对数据进行分析,我们从这些数据库里,抽取、转换和装载(Extract,Transform and Load ,ETL)数据到数据仓库中,进而在它之上运行复杂的分析负载,包括OLTP分析和数据挖掘,从数据里挖掘模式和知识。
  • 如果从多个异构的数据源ETL数据到数据仓库中,而且这些数据源存在各种异构性及不一致性,那么就需要对数据进行集成
  • 在进行ETL操作时,如果数据源的数据质量较差,在进行数据转换时,需要利用数据清洗技术,解决数据质量问题,数据清洗是一种消除数据里面的错误去掉重复数据的技术。

在这里插入图片描述

(1)数据清洗

1、数据清洗的意义
  • 基于准确的数据(高质量)进行分析,才有可能获得可信的分析结果,基于这些分析结果,才有可能做出正确的决策。
  • 在以下的讨论中,我们将围绕关系数据模型进行讨论。同样的原理和方法,在其他类型数据的清洗中,也可以灵活运用。
    在这里插入图片描述
2、数据异常的不同类型
  1. 语法类异常

    1. 词法错误。比如在一张人员表中,每个实体有四个属性,分别是姓名、年龄、性别和身高,某些记录里只有三个属性,这就是词法异常。
    2. 值域格式错误。比如姓名是字符串类型,在名和姓之间有一个“,”,那么“John ,Smith“是正确的值,而”John Smith“则不是正确的值。
    3. 不规则的取值。比如在一个数据库表里,员工的工资字段,有的是用“元”作为单位,有的是用“万元”作为单位。
      4.在这里插入图片描述
  2. 语义类异常

    1. 违反完整性约束规则。比如,我们规定员工表的工资字段必须大于0,如果某个员工的工资<0,那么就违反了完整性约束规则。
    2. 数据中出现矛盾。如果在数据库表里面,某位员工的实发工资,不等于应发工资减去所得税,那么就出现了矛盾。
    3. 数据的重复值。他指的是两个或两个以上的元组表示同一个实体。不同元组的各个属性的取值可能不是完全相同的。
    4. 无效元组。它指的是某些元组并没有表示客观世界的有效实体。比如,学生表里有一个学生,名字是“王五”,但是学校里并没有这个人。
  3. 覆盖类异常

    1. 值的缺失。它指的是,在进行数据采集的时候,就没有采集到相应的数据。(名册上有,现实中无)
    2. 元组的缺失。他指的是,在客观世界中,存在某些实体,但是并没有在数据库中通过元组表示出来。(现实中有,名册上无)
3、数据质量

简说:数据质量是个相当宽泛的概念,它包含很多方面。针对某个数据集,我们根据若干评价标准,对数据集的质量进行评价。然后把这些评价标准下的得分进行综合,可以获得一个关于数据

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值