前言
该篇文章是我对机器学习中,线性回归算法知识体系的搭建和总结。
线性回归算法的思维导图
线性回归是什么
-
定义
利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。
-
目的
找到方程,即(通过训练集中点的数据)找到特征和目标值之间的关系,求出w、b,拟合出一条直线
-
公式
w 权重,w 权重接近0 对目标值影响小
-
b 偏执,记作W0X0,其中b为W0、X0是1
-
X1 为特征1
-
x 为特征,为自变量 一个x 为一元方程 ,多个x为多元方程
-
y 为标签 因变量
-
线性回归的分类
-
一元线性回归
-
多元线性回归
多元即多个特征
-
解决什么问题
-
回归(目标值连续)问题
-
应用场景
-
目标值是连续的,就使用线性回归
-
-
线性回归API
-
API
-
API使用流程
数据:需使用特征+标签的数据。
-
w 为斜率
-
b 为截距
线性回归API的原理
怎么学习数据规律的
-
多个点之间的直线都可拟合,怎么评价?
-
看差异。差异越小越好。
-
怎么衡量差异?在线性回归中,使用损失函数衡量差异。
(即:相当于使用距离度量公式计算衡量)
-
距离,别称为衡量误差。
-
误差,是预测值y和真实值y之间的差值 更好的拟合所有点,也就是误差最小。
损失函数的种类和数学表达
损失函数(Loss Function)指:衡量每个样本预测值与真实值效果(差异)的函数,又称距离度量方法,可衡量模型效果好坏。 别称:代价函数、成本函数、目标函数 不同的任务比如分类、回归、聚类问题,一般会采用各自的损失函数
-
最小二乘法
当损失函数取最小值时,相当于拟合了所有的点,得到h(x)中的k就是最优解。
-
最小二乘损失:每个样本点求差(y_预测值 - y_true的最小平方和,即求函数的最小值(极值点导数为0)
-
均方误差
h(x) = kx+b 是预测值,此处用函数符号名代替
-
平均是为了避免因个数影响
-
L2(类似于欧式)
-
平均绝对误差
L1(相当于曼哈顿)
以上。