【吃瓜教程】西瓜书+南瓜书 第三章 学习笔记

吃瓜教材:

西瓜书:周志华老师的《机器学习》

南瓜书:《机器学习公式详解》第2版

吃瓜视频:【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导

补充链接:厄米特矩阵_百度百科 (baidu.com)

目录

第三章 线性模型

3.1 基本形式

3.2 线性回归

一元线性回归

 多元线性回归

3.3 对数几率回归

3.4 线性判别分析

3.5 多分类学习

3.6类别不平衡问题

第三章 线性模型

3.1 基本形式

线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即

d8e0fbe5848d4ba6832bfdd81450b140.png

和 均为列向量,w 直观表达了各属性在预测中的重要性(权重),因此线性模型有很好的可解释性(可理解性)。

3.2 线性回归

属性数值化:为了能进行数值运算,样本中的非数值类属性要进行数值化。

对离散特征:

  1. 存在“序”关系:通过连续化转为“连续值”
  2. 不存在“序”关系:将k个属性值转化为“k维向量”

举个栗子:

仨样本:

x1={甜度=高,瓜类=西瓜}

x2={甜度=中,瓜类=南瓜}

x3={甜度=低,瓜类=黄瓜}

“甜度”存在“序”关系——“高、中、低”转化为{1.0, 0.5, 0.0}(二值可转化为{1.0、0.0})

“瓜类”不存在“序”关系——“西瓜、南瓜、黄瓜”转化为(1,0,0),(0,1,0),(0,0,1)

结果:

x1 = (1.0;1;0;0)

x2 = (0.5;0;1;0)

x3 = (0.0;0;0;1)

用线性模型进行回归学习:

一元线性回归

先考虑最简单的情形:输入属性的数目只有一个,线性回归试图学得

5704dc36218f4c73a67fdbfec7895cc4.png

 (使得预测值尽可能接近真实值)

推导损失函数E(w,b)——最小二乘法

在线性回归中,试图找到一条直线,使所有样本到直线上的欧氏距离之和最小

(图中即所有绿色线长度之和最小)

b1ece883462d41abb651b5a86a557fd0.png

9d964d7cf28245f0ac83daae9387ffb0.png

 视频里还讲了用极大似然估计法,最后也得出了相同的损失函数E(w,b)。 

求解w,b——基于均方误差(损失函数)最小化

c7691d789c1143feb76677fa5c85d6cb.png

arg——argument(参数)

min——minimum(最小值)

该符号表示求使目标函数达到最小值的参数取值,

这里指使均方误差达到最小值的w和b的取值。

求解w,b本质是一个多元函数求最值(点)的问题,更具体点是凸函数求最值的问题:

  1. 证明E(w,b)是关于w和b的凸函数
  2. 用凸函数求最值的思路求解w和b

思路:

1. 凸集

5d7bb7d364fb448dad405c425d3570d4.png

2. 凸函数(这里的凸函数和高数的相反)

e0d0edefb7c348df9676fee841e1a120.png

3. 梯度

af97c63d487c44e3b52807c69827c920.png

4. 海塞矩阵

53cab3e2c170404caeeee8732362c720.png

5. 半正定矩阵——凸函数

37d646342a1b416d9ffd2ca9a0a92ebc.png

因此,只需证明E(w,b)的海塞矩阵是半正定的,那么E(w,b)就是关于w,b的凸函数。

8d3dc3bcb11c40ee9d61f3e3f51f115d.png

6. 全局解(最小值点)

aa77a0408b9b4d92a8dd17b2386f52c3.png

所以求E(w,b)关于w,b的偏导数=0即为要求的w,b的最优解的闭式解(指可以通过具体的表达式解出待解参数)​

机器学习三要素:

1.模型:根据具体问题,确定假设空间

2.策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)

3.算法:求解损失函数,确定最优模型

 多元线性回归

多元线性回归算法的机器学习三要素:

1.模型:根据具体问题,确定假设空间

一般的,样本由d个属性描述,此时我们试图学得

18cfd118948f4adc9ed63cbbc51c813e.png

2.策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)

最小二乘法推导损失函数

18b5a2e634f343e388192885b34c2f85.jpeg

3.算法:求解损失函数,确定最优模型

证明它是凸函数,一阶导=0求解w 

 

3.3 对数几率回归

对数几率回归算法的机器学习三要素:

1. 模型:线性模型,输出值的范围(0,1),近似阶跃的单调可微函数:

用线性回归进行分类学习:找一个单调可微函数将分类任务的真实标记 y 与线性回归模型的预测值联系起来。

考虑二分类任务,输出标记 y 是 0 或 1,而线性回归模型产生的预测值 z 是实值,所以我们要将实值转换为 0/1 值。

最理想的是“单位阶跃函数”:57d84c77cf72484696859728e4f74dff.png

 但是,单位阶跃函数不连续,所以我们希望找到能在一定程度上近似它的“替代函数”,并希望它单调可微——对数几率函数(它是“Sigmoid”函数的代表,即形状像 S 的函数),它将 z 转化为一个接近 0 或 1 的 y 值,并且在 z = 0 附近变化很陡。849bafacd4e04b07aa3e1c97e9f3c103.pnga10a9402ce7f4f148415f1b7f211bb24.png

实际能从实值映射到0,1的函数有很多,西瓜书从对数几率的角度介绍为什么选择这个函数,同时现在比较公认的原因是从“最大熵”的角度确定选择这个函数。 

2. 策略:极大似然估计,信息论

推出损失函数:

极大似然估计:联合概率最大

信息论:相对熵最小——交叉熵最小

40124c28f2fa4c288470442829ffaf0f.png

279d8747d309494087b7b1bb3ef18c83.png

与理想分布最接近的模拟发布即为最优分布,理想分布是未知的但固定的,前面一个式子(不带负号的信息熵的部分)是常量,因此可通过最小化相对熵即最小化交叉熵求出最优分布。

3.算法:梯度下降,牛顿法

求解w,b(β)

梯度下降法是一种迭代求解算法,其基本思路如下:先在定义域中随机选取一个点 x0,将其代入函数 f( x) 并判断此时 f( x0) 是否是最小值,如果不是的话,则找下一个点 x1,且保证 f( x1) < f( x0),然后接着判断 f( x1) 是否是最小值,如果不是的话则重复上述步骤继续迭代寻找 x 2、 x 3、...... 直到找到使得 f( x) 取到最小值的 x ∗ 。
 
f0a4c385f5414ea1beffead2ec364636.png

3.4 线性判别分析

先了解一下西瓜书定义的几个符号:

0fe53d15135d49f89aa983f43c6c8b36.jpeg

 线性判别分析(LDA):同类样本的方差尽可能小,异类样本的中心尽可能远 

59c1ad22c645452499f75ec57b5c64b0.png

求解w:

47f8c66b75eb45568d9bfa60d57d5de7.jpeg

广义特征值:

e473f14395e546a3ba6078d4b33d3f1c.png 广义瑞利商:

ed8ed5e95317451da579021268444cbe.png

厄米矩阵:厄米特矩阵_百度百科 (baidu.com)

8379a8a95a2549b1b2614aa9808c56b0.png

3.5 多分类学习

拆解法:将多分类任务拆为若干个二分类任务求解

最常见的拆分策略:一对一(OvO)一对余(OvR)多对多(MvM)

10f6b0bc72c442d98043a6e2b0b5986b.png

3.6类别不平衡问题

类别不平衡指分类任务中不同类别的训练样例数目差别很大的情况。(类别不平衡时常采用查准率、查全率和F1来度量学习器的性能)

西瓜书通过线性分类器的角度举栗子引出一个基本策略:再缩放

4975eb19f1334f42a8aa3451edcb37bd.png

 

  • 30
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值