机器学习--线性回归

最新推荐文章于 2024-09-24 08:41:20 发布

无痛学习

最新推荐文章于 2024-09-24 08:41:20 发布

阅读量258

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/wenshen1927/article/details/76804707

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

0、前言

断断续续学习机器学习有一个月了，虽然学习探索的过程很有意思，但是过了两三天回过头一想，也没记住啥。学习就是这样，不断重复遗忘，不断巩固加强，直到熟能生巧。我想开始把我最近学到的机器学习相关的概念、知识、疑问和想法记录一下，时常拿出来看看，修改修改。
严格遵守费曼原则：如果不能用通俗的语言讲清楚，那就回头看书去。

1、线性回归（linear regression）

回归就是用一个函数（一条曲线）来拟合所有的数据点，并且使拟合的曲线误差最小。
线性回归模型：
$y=h_{\theta }(x)=\theta_{0}x_{0}+\theta _{1}x_{1}+...+\theta _{n}x_{n}$
矩阵形式：
$h_{\theta }(x)=\sum_{i=0}^{n}\theta_{i}x_{i}$
直观理解就是给每个特征一个权值，比如 $x_{1}$ 表示房屋的面积， $x_{2}$ 表示房屋的楼层，假设数据只包含这两个特征，那么线性回归就是找到合适的权值赋给它们。 $x_{0}$ 一般取1，作为偏置项，起到调整的作用，类似直线的截距。

线性回归理解

2、损失函数（cost function）

通常各种教程就直接给出平方损失:
$J(\theta )=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta }(x^{(i)})-y^{(i)})^{2}$
m ——样本数
x ——特征/输入变量
y——目标变量/输出变量
（x,y）——训练集中的实例
$（x^{（i）}，y^{（i）}）$ ——第i个样本观察点
一般配合图示解释的也比较有道理：样本点和预测值做差，再平方求和。

这里写图片描述

但是从数学上，我更喜欢这个解释：
首先，对于每一个样本点：
$y^{(i)}=\theta^{T}x^{(i)}+\varepsilon ^{(i)}$
其中，误差 $\varepsilon ^{(i)}$ 是独立同分布的，且服从均值为0，方差为某定值 $\sigma^{2}$ 的高斯分布。
解释一下这句话：
（1）假定样本独立：实际上，若有一个业主卖两套房，那么这两套房的数据就不独立，因为业主会做一些比较考量。但是我们假设每一个业主只卖一套房（实际上，业主之间互相比较也会对样本独立性造成影响，但是我们依然认为服从高斯分布）
（2）假定样本同分布：认为样本来自同一个城市同一个区同一个范围，即假定它服从同一分布。
（3）均值为0：可能我们会认为均值是某一个数，但是注意我们有一个偏置项 $x_{0}$ ，作为一个调整可以使 $\varepsilon$ 均值调整为0
（4） $\varepsilon$ 服从高斯分布：我们认为误差是随机生成的，是由众多独立影响的因素引起的综合反应，根据中心极限定理，误差服从高斯分布。

既然 $\varepsilon \sim N(0,\sigma ^{2})$ ，那么它的概率密度函数就是：
$p(\varepsilon ^{(i)})=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(\varepsilon ^{(i)})^{2}}{2\sigma ^{2}})$ ——(1)

由于： $y^{(i)}=\theta^{T}x^{(i)}+\varepsilon ^{(i)}$
所以： $\varepsilon ^{(i)}=y^{(i)}-\theta^{T}x^{(i)}$ 带入(1)
得： $p(y^{(i)}|x^{(i)};\theta )=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y^{(i)}-\theta ^{T}x^{(i)})^{2}}{2\sigma ^{2}})$ ——(2)
因为样本是独立同分布的，所以似然函数就是：
（公式太长，有时间再编辑^_^）