《数据清洗》学习笔记

目录

 (1)数据质量的评价指标

 (2)数据质量问题分类

    基于数据源的“脏”数据分类:

   基于清洗方式的“脏”数据分类:

(3)数据清洗原理

(4)数据清洗的基本流程

(5)数据清洗的策略

(6)常见的数据清洗方法


        当今时代,海量数据的来源是广泛的,数据类型也是多而繁多的,因此数据当中也会夹杂着不完整,重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。


 (1)数据质量的评价指标

        准确性:对于数据进行降噪处理,通过最常用的异常值检测方法聚类进行处理。

        完整性:数据信息是否存在缺失的状况。

        简洁性:精良选择重要的本质属性,并消出冗余。

        适用性:数据质量是否满足决策的需要是适用性的关键所在。从数据的实际效用上讲,适用            性才是评价数据质量的核心准则。


 (2)数据质量问题分类

    基于数据源的“脏”数据分类:

    通常情况下,将数据源中不完整、重复以及错误等有问题的数据称为“脏”数据。

 

   基于清洗方式的“脏”数据分类:

   从数据清洗方式的设计者角度来看,可以将“脏”数据分为“独立性”和“依赖性”


(3)数据清洗原理

数据清晰是利用相关技术将“脏”数据转换为满足质量要求的数据;需要注意的是数据清洗的目的是解决“脏”数据问题,既不是将脏数据要洗掉,而是将脏数据洗干净。干净的数据指的是满足质量要求的数据。


(4)数据清洗的基本流程

数据清洗的基本流程分为五步,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。

数据分析:通过人工检测或者计算机分析的方式来对原始数据进行检测分析,从而得出原始数据源中存在的数据质量问题。

定义数据清洗的策略和规则:根据数据分析出的数据源个数和数据源中的脏数据成都定义数据清洗策略和规则,并选择合适的数据清洗算法。

搜寻并确定错误实例:包括自动检测属性错误和检测重复记录的算法。

纠正发现的错误:根据不同的脏数据存在的不同形式,执行相应的数据清洗和转化步骤解决原始数据源当中存在的质量问题。

干净数据回流:当脏数据被清洗之后得到干净数据,干净数据代替原始数据源当中的脏数据,这样可以提高信息系统系统的数据质量,还可以避免将来再次抽取数据后进行反复的数据清洗工作。


(5)数据清洗的策略

目前数据清洗的策略主要分为一般的数据清晰策略和混合数据清晰策略。


(6)常见的数据清洗方法

缺失值的清洗:忽略缺失值数据和填充缺失值数据。

重复值的清洗:目前基本思想是“排序和合并”,主要有相似度计算和基本近邻排序算法等算法。

错误值的清洗:主要包括使用统计分析的方法识别可能的错误值(偏差分析。、识别不遵从分布或回归方程的值)、使用简单规则库(常识性规则、业务特定规则)检测出错误值、使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Matlab中,数据清洗是指对数据进行预处理和处理,以确保数据的准确性和一致性。在数据清洗过程中,一些常见的任务包括处理缺失值和离群值。 对于缺失值,Matlab使用NaN来表示。如果数据中包含NaN,Matlab在运算时不会发出警告,而是继续按照编程进行计算,导致结果异常。有时,直接从Excel导入的数据中,缺失值以0来表示,在Matlab中不再显示NaN。但是在运算过程中,可能会产生NaN,导致最终结果异常。因此,在进行数据清洗时,需要注意处理缺失值的情况。 另一方面,对于离群值的处理,可以使用Matlab中的一些函数来进行平滑处理,以避免结果的偏斜。可以将清理离群数据的任务添加到您的实时脚本中,通过键入"clean"并选择"Clean Outlier Data"命令来添加任务。该任务会识别并填充数据中的离群值,并在Matlab工作区中创建一个变量"cleanedData",可以通过任务输出的图表查看结果。您还可以根据需要修改其他参数,直到对结果满意为止。 因此,在进行数据清洗时,可以使用Matlab中的函数和任务来处理缺失值和离群值,以确保数据的质量和准确性。具体的代码实现可以参考各大网站的资料,如CSDN、MathWorks官网、知乎、知网、百度等。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [【重新定义matlab强大系列一】利用MATLAB进行清洗缺失数据](https://blog.csdn.net/ywsydwsbn/article/details/129911275)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [用matlab代码进行数据探索、数据清洗学习笔记](https://blog.csdn.net/a112113114q/article/details/104179064)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值