数据预处理

本文介绍了数据清洗中的错误处理、数据集成概念、数据变换(如标准化),以及缺失值和异常值的检测与处理。重点讲解了数据规约、无量纲化方法(如极值差法和功效系数法)及其适用场景。最后提到定性指标的量化处理问题。
摘要由CSDN通过智能技术生成

 数据清洗:数据中可能存在一些错误数据、异常数据,我们将其查找出来之后,进行相关的处理,使其成为正常的、可使用的数据。

数据集成:是将不同格式、不同获取逻辑的数据,将其进行集中化的处理。

 数据变换:将数据按照一定的规范使其变成统一的数据集。比如,有些数据越大越好,有些数据越小越好,我们就需要通过一定的办法,将其都变成越大越好。

数据规约:数据存在很多冗余、或者说是数据的维度太高了。计算起来比较繁琐。我们可以使用几个关键的指标来代替原来高维度的数据。

常用的是数据规约和数据清洗,数据集成在数学建模中使用的比较少。

 在数据清洗中的缺失值处理中,常用到的是删除记录和数据插补。

 拉格朗日插值和牛顿插值都是通过构建虚拟的函数,用的是多项式函数。插值法和回归法会与数据补齐的逻辑是不一样的。回归相当于是找一个面,使这个面接近已知点,但插值函数是一定经过这些已知点的。

 使用MATLAB进行缺失值处理:

 在二维插值中interp2函数,适用于单调数据的插值,比如x和y都是增大或者是缩小的,当x和y不是递增或者递减的话,就需要用到griddata这个函数,这个函数适用于任何的情况。

 异常值处理:

 找到异常值,将其剔除,再使用上面所学到的方法进行插值。

所以,重要的还是要分清哪些是异常值,怎样找出异常值。

 数据变换:

 所以我们要将数据都处理成越大越好,或者是越小越好。一般是越大越好。

所以处理极小型数据指标有以下两种方法:

 中间型:

上图中的m和M是中间型的区间最小值和最大值。

 区间型指标:

 数据指标的无量纲化处理:

 

 

 极值差法是无量纲化的第二种方法,在无量纲化之前要做的是数据的一致化处理(指标的正向化处理)。极值差法也叫作归一化。

 那么这两种方法分别适用于哪种情况呢。

如果数据是比较均匀的分布的情况下,适用于标准差的方法。

如果数据不是均匀分布的情况下,适用于极值差法。

以上的两种方法只能使处理完的数据分布在0-1的区间范围内,有时候我们不希望数据在0-1的范围内。这时就要用到功效系数法。这种方法可以使数据落在某个我们希望的范围内。这个方法也是在极值差法的基础上进行一些变换。

  所以说,在处理数据的过程中,我们需要先确定每个指标的类型,是效益型还是成本型还是区间型,再使用相应的公式去处理。

定性指标的量化处理方法:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值