数据预处理

马龙captain

于 2023-08-07 08:43:35 发布

阅读量188

点赞数

文章标签：数学建模

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_69143897/article/details/132096067

版权

本文介绍了数据清洗中的错误处理、数据集成概念、数据变换（如标准化），以及缺失值和异常值的检测与处理。重点讲解了数据规约、无量纲化方法（如极值差法和功效系数法）及其适用场景。最后提到定性指标的量化处理问题。

摘要由CSDN通过智能技术生成

数据清洗：数据中可能存在一些错误数据、异常数据，我们将其查找出来之后，进行相关的处理，使其成为正常的、可使用的数据。

数据集成：是将不同格式、不同获取逻辑的数据，将其进行集中化的处理。

数据变换：将数据按照一定的规范使其变成统一的数据集。比如，有些数据越大越好，有些数据越小越好，我们就需要通过一定的办法，将其都变成越大越好。

数据规约：数据存在很多冗余、或者说是数据的维度太高了。计算起来比较繁琐。我们可以使用几个关键的指标来代替原来高维度的数据。

常用的是数据规约和数据清洗，数据集成在数学建模中使用的比较少。

在数据清洗中的缺失值处理中，常用到的是删除记录和数据插补。

拉格朗日插值和牛顿插值都是通过构建虚拟的函数，用的是多项式函数。插值法和回归法会与数据补齐的逻辑是不一样的。回归相当于是找一个面，使这个面接近已知点，但插值函数是一定经过这些已知点的。

使用MATLAB进行缺失值处理：

在二维插值中interp2函数，适用于单调数据的插值，比如x和y都是增大或者是缩小的，当x和y不是递增或者递减的话，就需要用到griddata这个函数，这个函数适用于任何的情况。

异常值处理：

找到异常值，将其剔除，再使用上面所学到的方法进行插值。

所以，重要的还是要分清哪些是异常值，怎样找出异常值。

数据变换：

所以我们要将数据都处理成越大越好，或者是越小越好。一般是越大越好。

所以处理极小型数据指标有以下两种方法：

中间型：

上图中的m和M是中间型的区间最小值和最大值。

区间型指标：

数据指标的无量纲化处理：

极值差法是无量纲化的第二种方法，在无量纲化之前要做的是数据的一致化处理（指标的正向化处理）。极值差法也叫作归一化。

那么这两种方法分别适用于哪种情况呢。

如果数据是比较均匀的分布的情况下，适用于标准差的方法。

如果数据不是均匀分布的情况下，适用于极值差法。

以上的两种方法只能使处理完的数据分布在0-1的区间范围内，有时候我们不希望数据在0-1的范围内。这时就要用到功效系数法。这种方法可以使数据落在某个我们希望的范围内。这个方法也是在极值差法的基础上进行一些变换。

所以说，在处理数据的过程中，我们需要先确定每个指标的类型，是效益型还是成本型还是区间型，再使用相应的公式去处理。

定性指标的量化处理方法：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。