西瓜书:第三章线性模型

一、线性回归
线性回归的基本思想是采用对输入样例各个特征进行线性加权的方式得到预测的输出,并将预测的输出和真实值的均方误差最小化。1)如果输入样例只有一个特征,那这个过程就是用一条直线去拟合平面直角坐标系上的点; 2)如果有两个特征,表现在平面直角坐标系上就是用一条直线将用不同标记(如XX和OO)区分的输入样例分割开来;3)如果有两个以上特征,那就会映射到高维空间,用超平面来分割。

对于离散属性,若属性值间存在“序”关系,则可以通过连续化将其转换成连续值;若不存在“序”关系,则有k个属性值,就转换为k维向量。比如,如果属性是有序的话,如“大 中 小”,可按序量化为(1,0.5,0);若属性无序,如瓜的种类有西瓜、黄瓜、冬瓜,就可以用三维向量表示(1,0,0),(0,1,0),(0,0,1)。如果对于无序的属性按有序属性的方式量化,则会不恰当的引入序关系,后面如果有涉及距离的计算,有可能会造成误导。这里实际上对应的是编程实现时的数据预处理部分。

均方误差即函数值与平均数的方差,它是回归任务最常用的度量,它采用的是欧几里得(欧式)距离。基于均方误差来进行模型求解的方法,成为“最小二乘法”。在线性回归中,“最小二乘法”就是找到一条直线,使所有样本到该直线的欧式距离之和最小。

求解线性方程E(w,b)=∑(yi-wxi-b)²中的w和b的过程,称为最小二乘“参数估计”。分别对w和b求偏导,当两个偏导数均为0时(极值点处),得到的w和b为最优解。

对于有多个属性的问题,称为“多元线性回归”。

可逆矩阵又称为满秩矩阵,不可逆矩阵又称为奇异矩阵或降秩矩阵。列数大于行数的矩阵,绝不可能是满秩矩阵。

当数据集构成的矩阵满秩时,有唯一的w使均方误差最小;当数据集中样本属性大于样本个数,即数据集列数大于行数时,矩阵不可能满秩,有多个解使得均方误差最小。

w多解时,该选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见做法是引入正则化项。

考虑单调可微函数g(.),令,使得线性模型推广为广义线型模型。对数线性回归即是广义线性模型在g(.)=ln(.)时的特例。

二、对数几率回归
广义线性模型常用作分类。只需要找出一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。比如二分类,由z=xw+b所得到的预测值z是一个实值,我们必须要把这个实值转换为0或1,因此需要用到“单位阶跃函数”(z小于0则令y=0,z大于0则令y=1,若z=0则任意判断)。然而,"单位阶跃函数"不连续,因此我们需要找一个替代的函数——对数几率函数(逻辑回归模型)。

对数几率回归(逻辑回归)模型  ln(y/(1-y))=xw+b, 其中,y为样本x作为正例的可能性,1-y为样本x作为反例的可能性,则y/(1-y)成为“几率”,反映的是x作为正例的相对可能性,对几率取对数则得到“对数几率”。总结起来,就是:用线性回归模型的预测结果去逼近真实标记的对数几率。

对率(逻辑回归)模型虽然名字是“回归”,实际却是一种分类学习方法。有以下几个重要优点。

1)直接对分类可能性进行建模,不需要事先假设数据分布

2)不仅能预测类别,还可以得到近似概率预测。对需要利用概率辅助决策的任务很有用

3)对率函数是任意阶可导的凸函数,又很好的数学性质,能应用许多数值优化算法。

书上在54页边注简要说明了凸函数,什么是凸函数的定义和判定?  线性回归的目标函数是一个凸函数。一个闭区间上凸函数,必须在这个区间上满足“两点中点处函数值≤两点各自函数值和的一半”,而不要想当然的理解为形状朝一个方向“凸出”就是凸函数。比如,y=x²是凸函数,y=-x²就不是。从数学角度,可以通过二阶导数判断:若在区间上二阶导数非负,则称为凸函数;若二阶导数在区间上恒大于0,则称为严格凸函数。

线性回归的本质

一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据,如果能够很好的拟合,则可以根据自变量作进一步预测,比如我们提到的广告费用与产品销售额的关系。

当函数为参数未知的线性函数时,称为线性回归分析模型;当函数为参数未知的非线性函数时,称为非线性回归分析模型。当自变量个数大于1时称为多元回归,当因变量个数大于1时称为多元回归。

当X和Y只有一个维度(一元回归),且因变量和自变量的关系是线性关系,线性图表示就是一条直线,而多维度(多元回归)学习到的参数方程,体现到空间中就是一个超平面。

在这里插入图片描述

要注意的是,我们平时可能会把拟合与回归弄混淆,但其实二者有本质区别。你可以把现实世界的数据看做“表象”,把你拟合出来的那个模型看做“本质”。由表象到本质的过程就是“回归”。而拟合是一种得到函数的手段,常和数值领域的“插值”放在一起,也就是得到回归函数的手段。

当回归函数未知时,我们可以通过拟合这种手段算出回归函数,求这个回归函数的问题叫做回归问题。一个是问题的类别,一个是解决方法的类别,回归和拟合的差别就在这里。

数学理论的世界是精确的,譬如在广告-销量方程中,你代入x=0就能得到唯一的 y=7.1884,但这个y并不是我们真实观测到的,而是估计值。现实世界中的数据就像散点图,我们只能尽可能地在杂乱中寻找规律,很难100%的完美拟合一条直线出来。用数学的模型去拟合现实的数据,这就是统计。统计不像数学那么精确,统计的世界不是非黑即白的,它有“灰色地带”,但是统计会将理论与实际间的差别表示出来,也就是“误差”。

补充:线性回归的局限

线性回归简单、直观、迅速,但也有不少局限,这也是之后更多高级算法的出现原因,它们一定程度上解决了线性回归无法解决的问题。线性回归的局限可以归纳以下几点:

  • 需要严格的假设

  • 只能用于变量间存在简单线性关系的数据。

  • 当数据量、数据维度大时,计算量会指数级增加。

  • 需处理异常值,对异常值很敏感,对输入数据差异也很敏感。

  • 线性回归存在共线性,自相关,异方差等问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值