《机器学习》第1天-线性回归原理推导

FITA泽啊

已于 2023-08-24 10:16:58 修改

阅读量68

点赞数 1

分类专栏：机器学习文章标签：机器学习线性回归人工智能

于 2023-07-25 22:57:16 首次发布

本文链接：https://blog.csdn.net/weixin_63840907/article/details/131881954

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Q1：回归问题阐述：

举例：若去银行贷款，需要提供的信息为个人年龄: $x_1{}$ 与个人月收入 $x_2$ ，则银行给出可贷款的额度y。

分析：特征：工资、年龄

标签：额度

参数：工资与年龄对额度的影响程度

目的：找到一条线（或一个平面）更好的拟合数据集

公式表达： $y = \theta _1x_1+\theta_2x_2+\theta_0$

推广： $y=\sum_{i=0}^{n}\theta_ix_i=\theta^{T}x$

Q2: 误差项定义：

误差项定义： $y_i=\sum_{i=0}^{n}\theta_ix_i+\varepsilon _i=\theta^{T}X_i+\varepsilon_i$ 公式1

Q3: 独立同分布的意义：

误差 $\varepsilon_i$ 服从独立同分布的，且服从均值为0，方差为 $\theta ^2$ 的高斯分布
独立：张三与李四去贷款
同分布：他们在同一家银行中贷款
高斯分布：银行可能会给的多或者给的少，总体保持稳定。但绝大多数情况下，浮动不大，极少数情况浮动大，符合正常情况
高斯分布公式： $p = \frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(x-\mu )^2}{2\sigma_{}^{2}})$

误差 $\varepsilon_i$ 服从高斯分布： $p(\varepsilon_i)=\frac{1}{\sqrt{2\pi }\sigma^2}exp(-\frac{\varepsilon_i^2}{2\sigma^2})$ 公式二

因为最终目标是求 $\theta^T$ ,所以将公式一带入公式二中： $p(y_i|X_i;\theta^T)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-X_i\theta^T)^2}{2\sigma^2})$

Q4：似然函数作用

概率论：独立同分布联合概率密度等于各自边缘分布的乘积

总结：已知结果，求参数的方法——似然函数

似然函数： $L(\theta^T) = \prod_{i=1}^{m}p(y_i|X_i;\theta^T)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-X_i\theta^T)^2}{2\sigma^2})$

因为乘法难以求解，加法容易，故将引入——对数似然函数（极值虽然发生变化，但极值点不会变）

对数似然函数： $logL(\theta^T)=log\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-\theta^TX_i)^2}{2\sigma^2})=mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i-\theta^TX_i)^2$