【R语言科研绘图-最小二乘法】-CSDN博客

本文链接：https://blog.csdn.net/weixin_56694865/article/details/148220002

生成数据

x1 和 y1 是第一个正态分布的数据点，均值为0。
x2 和 y2 是第二个正态分布的数据点，均值为3。
这样生成的数据点在二维平面上会有明显的分离，便于观察。
创建数据框：
将 x1 和 x2 合并成一个向量 x。
将 y1 和 y2 合并成一个向量 y。
添加一个 category 列，用于区分两个数据集。
绘制散点图：
使用 plot 函数绘制散点图。
col 参数使用 ifelse 函数根据 category 列的值分配颜色：Category 1 为蓝色，Category 2 为红色。
pch = 19 表示使用实心点。
main 添加图表标题，xlab 和 ylab 添加轴标签，cex = 1.2 增大点的大小。
添加图例：
使用 legend 函数添加图例，说明不同颜色代表的类别。
输出结果
运行上述代码后，你将看到一个散点图，其中两个正态分布的数据点使用不同的颜色区分。图例会清晰地表明每种颜色对应的类别。
可视化结果
散点图将直观地展示两个正态分布的数据点在二维平面上的分布情况，不同颜色区分了两个数据集。
通过这种方式，你可以随机生成两个正态分布的数据点，并使用散点图直观地显示它们的分布情况，同时用不同颜色区分两个数据集。

# 设置随机种子
set.seed(123)

# 生成两个正态分布的数据集
n <- 100  # 每个类别的数据点数量
x1 <- rnorm(n, mean = 0, sd = 1)  # 类别1的数据，均值为0
y1 <- rnorm(n, mean = 0, sd = 1)  # 类别1的数据，均值为0
x2 <- rnorm(n, mean = 3, sd = 1)  # 类别2的数据，均值为3
y2 <- rnorm(n, mean = 3, sd = 1)  # 类别2的数据，均值为3

# 创建数据框
data <- data.frame(
  x = c(x1, x2),  # 合并x1和x2
  y = c(y1, y2),  # 合并y1和y2
  category = c(rep("Category 1", n), rep("Category 2", n))  # 类别标签
)

# 绘制散点图
plot(data$x, data$y, pch = 19, col = ifelse(data$category == "Category 1", "blue", "red"),
     main = "Scatter Plot of Two Normal Distributions",
     xlab = "X", ylab = "Y", cex = 1.2)

# 添加图例
legend("topright", legend = c("Category 1", "Category 2"), col = c("blue", "red"), pch = 19)

在这里插入图片描述

最小二乘法

最小二乘法简介

最小二乘法是一种用于线性回归的参数估计方法，通过最小化残差平方和来拟合数据。核心目标是找到一组参数，使得预测值与实际观测值之间的误差平方和最小。

数学原理

假设线性模型为：
$X\beta + \epsilon$
其中：

$y$ 为因变量向量
$X$ 为设计矩阵（包含自变量和截距项）
$\beta$ 为待估参数向量
$\epsilon$ 为误差项

最小二乘解通过求解正规方程得到：
$\hat{\beta} = (X^T X)^{-1} X^T y$

R语言实现示例

方法1：使用基础函数 `lm()`

# 生成示例数据
set.seed(123)
x <- 1:10
y <- 2 * x + rnorm(10, mean = 0, sd = 1)

# 最小二乘拟合
model <- lm(y ~ x)
summary(model)  # 输出模型摘要

方法2：手动计算参数

# 构造设计矩阵（包含截距项）
X <- cbind(1, x)  # 第一列为1（截距）

# 计算最小二乘解
beta_hat <- solve(t(X) %*% X) %*% t(X) %*% y
print(beta_hat)  # 输出参数估计值

方法3：可视化拟合结果

# 绘制数据点和回归线
plot(x, y, main = "Least Squares Fit", pch = 16)
abline(model, col = "red")  # 添加回归线

关键输出说明

lm() 函数返回的模型摘要包含系数估计、标准误差、R²等统计量。
手动计算的 beta_hat 应与 lm() 结果一致，验证计算正确性。

注意事项

若 $X^T X$ 不可逆（如共线性存在），需使用广义逆或正则化方法。
残差分析可通过 plot(model) 快速检查模型假设。### 最小二乘法简介
最小二乘法是一种用于线性回归的参数估计方法，通过最小化残差平方和来拟合数据。核心目标是找到一组参数，使得预测值与实际观测值之间的误差平方和最小。