数据分析之数据归一化的原因和方法

最新推荐文章于 2024-05-03 22:05:55 发布

Yes i are

最新推荐文章于 2024-05-03 22:05:55 发布

阅读量1.4k

点赞数

原文链接：https://blog.csdn.net/Tail_mm/article/details/108843686

版权

数据标准化的原因和方法
原因

由于不同变量常常具有不同的单位和不同的变异程度。
不同的单位常使系数的实践解释发生困难。例如：第1个变量的单位是kg，第2个变量的单位是cm，那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值（单位是kg）与第2个变量观察值之差的绝对值（单位是cm ）相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加？
不同变量自身具有相差较大的变异时，会使在计算出的关系系数中，不同变量所占的比重大不相同。例如如果第1个变量（两水稻品种米粒中的脂肪含量）的数值在 2%到4%之间，而第2个变量（两水稻品种的亩产量）的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响，故将数据标准化。

1
2
3

方法

对变量的离差标准化
离差标准化是将某变量中的观察值减去该变量的最小值，然后除以该变量的极差。即  x’ik＝[xik －Min (xk)]／Rk     
经过离差标准化后，各种变量的观察值的数值范围都将在〔0，1〕之间，并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲（单位）影响和变异大小因素的影响的最简单的方法。   
有一些关系系数（例如绝对值指数尺度）在定义时就已经要求对数据进行离差标准化，但有些关系系数的计算公式却没有这样要求，当选用这类关系系数前，不妨先对数据进行标准化，看看分析的结果是否为有意义的变化。
对变量的标准差标准化
标准差标准化是将某变量中的观察值减去该变量的平均数，然后除以该变量的标准差。即  x’ik ＝ (xik －xmean )／sk 经过标准差标准化后，各变量将有约一半观察值的数值小于0，另一半观察值的数值大于0，变量的平均数为0，标准差为1。经标准化的数据都是没有单位 的纯数量。对变量进行的标准差标准化可以消除量纲（单位）影响和变量自身变异的影响。
但有人认为经过这种标准化后，原来数值较大的的观察值对分类结果的影 响仍然占明显的优势，应该进一步消除大小因子的影响。尽管如此，它还是当前用得最多的数据标准化方法。
先对事例进行标准差标准化，再对变量进行标准差标准化
第一步，先对事例进行标准差标准化，即将某事例中的观察值减去该事例的平均数，然后除以该事例的标准差。即 x’ik ＝ (xik －x )／si     
第二步，再对变量进行标准差标准化，即将某变量中的观察值减去该变量的平均数，然后除以该变量的标准差。即 x’’ik ＝ (x’ik － ’k)／s’k     使用这种标准化的目的也在于消除性状间的量纲（单位）影响和变异大小因子的影响，使性状间具有可比性。
先对变量、后对事例、再对变量的标准差标准化
这种标准化的目的也在于消除性状间的量纲（单位）影响和变异大小因子的影响，使性状间具有可比性。具体做法是：     
第一步，先对变量进行标准差标准化，即将某变量中的观察值减去该变量的平均数，然后除以该变量的标准差。即        x’ik ＝ (xik － )／sk    
 第二步，后对事例进行标准差标准化，即将某事例中的观察值减去该事例的平均数，然后除以该事例的标准差。即        x’’ik ＝ (x’ik － ’i)／s’i     
 第三步，再对变量进行标准差标准化，即将某变量中的观察值减去该变量的平均数，然后除以该变量的标准差。即        x’’’ik ＝ (x’’ik － ’’k)／s’’k     进行了前两步之后，还要进行第三步的原因，主要是为了计算的方便。  
阅读已结束，获取文档需

链接: link.

图片: Alt

带尺寸的图片:

居中的图片: Alt

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash

创建一个自定义列表

Markdown

Text-to- HTML conversion tool

Authors

John

Luke

如何创建一个注脚

一个具有注脚的文本。¹

注释也是必不可少的

Markdown将文本转换为 HTML。

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 $\Gamma(n) = (n-1)!\quad\forall n\in\mathbb N$ 是通过欧拉积分

$\Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,.$

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能，丰富你的文章

关于 甘特图 语法，参考这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图：

这将产生一个流程图。:

关于 Mermaid 语法，参考这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图：

关于 Flowchart流程图 语法，参考这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ，生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件，在上方工具栏可以选择导入功能进行对应扩展名的文件导入，
继续你的创作。

注脚的解释 ↩︎

Yes i are

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析之数据归一化的原因和方法

数据标准化的原因和方法原因由于不同变量常常具有不同的单位和不同的变异程度。不同的单位常使系数的实践解释发生困难。例如：第1个变量的单位是kg，第2个变量的单位是cm，那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值（单位是kg）与第2个变量观察值之差的绝对值（单位是cm ）相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加？不同变量自身具有相差较大的变异时，会使在计算出的关系系数中，不同变量所占的比重大不相同。例如如果第1个变量（两水稻品种米粒中的脂肪含量）的
复制链接

扫一扫