深度学习笔记: 最详尽解释R 平方 (R²)

Purepisces

已于 2024-06-28 10:43:43 修改

阅读量2.1w

点赞数 18

分类专栏：机器学习文章标签：深度学习笔记 r语言 python 人工智能机器学习

于 2024-06-28 09:55:05 首次发布

本文链接：https://blog.csdn.net/weixin_53765658/article/details/140034388

版权

欢迎收藏Star我的Machine Learning Blog:https://github.com/purepisces/Wenqing-Machine_Learning_Blog。如果收藏star, 有问题可以随时与我交流, 谢谢大家！

理解 R 平方 (R²)

什么是相关性 R?

相关性测量两个定量变量（例如，重量和尺寸）之间关系的强度。
接近 1 或 -1 的值表示关系强。
接近 0 的值表示关系弱或无关系。

为什么 R² 重要?

R² 是一种类似于 R 的相关性指标，它测量关系的强度，但更易于解释。
虽然 R = 0.7 可能看起来并不比 R = 0.5 强一倍，但 R² = 0.7 表现出来的效果确实是 R² = 0.5 的 1.4 倍。
R² 提供了一个直观而简单的计算，用于理解关系解释的变异比例。

R² 直接告诉我们模型解释的变异百分比，使我们更容易理解预测变量对结果的影响。例如，R² 为 0.49 表示模型解释了 49% 的变异，而 R² 为 0.25 表示模型解释了 25% 的变异。

例子：老鼠体重预测

初始数据绘图
- 绘制老鼠体重（y 轴）与老鼠 ID（x 轴）的关系图。
- 计算并绘制平均体重。
- 计算方差，即从均值开始的平方差的总和。
  $\text{数据的变异性} = \sum (\text{老鼠 i 的体重} - \text{均值})^2$
  各数据点之间的差异被平方，以便低于均值的点不会抵消高于均值的点。

按尺寸重新排序数据
- 按尺寸重新排序老鼠，但不改变均值和方差。点与线之间的距离没有改变，只是它们的顺序变了。

通过拟合线更好地预测
- 对尺寸-体重数据拟合一条线。
- 使用这条线基于尺寸进行更准确的体重预测。

用 R² 量化改进
- $\frac{(Var(mean) - Var(line))}{Var(mean)}$
  R² 的取值范围从 0 到 1，值越高预测越好。

在这里插入图片描述

R² 的范围从 0 到 1，因为线周围的变异永远不会大于均值周围的变异，并且永远不会小于 0。这种划分也使得 R² 成为一个百分比。

例子
- 高 R²（例如，0.81）表示关系强，如尺寸和体重。
- 低 R²（例如，0.06）表示关系弱，如嗅探时间和体重。

R² 为 0.81 表示线周围的变异比均值周围的变异少 81%，或者尺寸/体重关系解释了总变异的 81%。这意味着数据中大部分的变异可以通过尺寸/体重关系来解释。

在另一个例子中，我们比较两个可能不相关的变量，即老鼠体重和嗅探岩石的时间。我们发现 R² = 0.06，因此线周围的变异比均值周围的变异少 6%，或者嗅探/体重关系解释了总变异的 6%。这意味着只有 6% 的变异可以通过这种关系来解释，表明相关性很弱。

解释 R²

统计显著的 R² = 0.9：90% 的变异由这种关系解释。
统计显著的 R² = 0.01：只有 1% 的变异由这种关系解释。

当有人说“统计显著的 R² 是 0.9”时，你可以想，“很好！两个变量之间的关系解释了数据中 90% 的变异！” 反之，如果 R² = 0.01，你可以想，“即使这种关系是显著的，但只解释了 1% 的变异；剩下的 99% 必须由其他因素解释。”

即使统计测试显示两个变量之间的关系在统计上是显著的，如果 R² 值非常低，这种关系在实际上的重要性可能很小。换句话说，统计显著性并不一定意味着这种关系在解释数据变异方面是有意义的或重要的。

与 R 的关系

R² 是 R 的平方。
高 R（例如，0.9）的平方得出高 R²（例如，0.81）。
R² 提供了更清晰的比较，更容易理解（例如，R² 的 0.7² 比 0.5² 好两倍）。

当有人说“统计显著的 R 是 0.9”时，你可以想，“0.9 乘以 0.9 = 0.81。很好！两个变量之间的关系解释了数据中 81% 的变异！” 对于 R = 0.5，你可以想，“0.5 乘以 0.5 = 0.25。关系解释了数据中 25% 的变异。如果有一百万个其他因素解释剩下的 75%，那很好，如果只有一个因素，那就不好了。”

R² 比普通的 R 更容易解释。例如，R = 0.7 与 R = 0.5 比较：