数据清洗:数据中可能存在一些错误数据、异常数据,我们将其查找出来之后,进行相关的处理,使其成为正常的、可使用的数据。
数据集成:是将不同格式、不同获取逻辑的数据,将其进行集中化的处理。
数据变换:将数据按照一定的规范使其变成统一的数据集。比如,有些数据越大越好,有些数据越小越好,我们就需要通过一定的办法,将其都变成越大越好。
数据规约:数据存在很多冗余、或者说是数据的维度太高了。计算起来比较繁琐。我们可以使用几个关键的指标来代替原来高维度的数据。
常用的是数据规约和数据清洗,数据集成在数学建模中使用的比较少。
在数据清洗中的缺失值处理中,常用到的是删除记录和数据插补。
拉格朗日插值和牛顿插值都是通过构建虚拟的函数,用的是多项式函数。插值法和回归法会与数据补齐的逻辑是不一样的。回归相当于是找一个面,使这个面接近已知点,但插值函数是一定经过这些已知点的。
使用MATLAB进行缺失值处理:
在二维插值中interp2函数,适用于单调数据的插值,比如x和y都是增大或者是缩小的,当x和y不是递增或者递减的话,就需要用到griddata这个函数,这个函数适用于任何的情况。
异常值处理:
找到异常值,将其剔除,再使用上面所学到的方法进行插值。
所以,重要的还是要分清哪些是异常值,怎样找出异常值。
数据变换:
所以我们要将数据都处理成越大越好,或者是越小越好。一般是越大越好。
所以处理极小型数据指标有以下两种方法:
中间型:
上图中的m和M是中间型的区间最小值和最大值。
区间型指标:
数据指标的无量纲化处理:
极值差法是无量纲化的第二种方法,在无量纲化之前要做的是数据的一致化处理(指标的正向化处理)。极值差法也叫作归一化。
那么这两种方法分别适用于哪种情况呢。
如果数据是比较均匀的分布的情况下,适用于标准差的方法。
如果数据不是均匀分布的情况下,适用于极值差法。
以上的两种方法只能使处理完的数据分布在0-1的区间范围内,有时候我们不希望数据在0-1的范围内。这时就要用到功效系数法。这种方法可以使数据落在某个我们希望的范围内。这个方法也是在极值差法的基础上进行一些变换。
所以说,在处理数据的过程中,我们需要先确定每个指标的类型,是效益型还是成本型还是区间型,再使用相应的公式去处理。
定性指标的量化处理方法: