3.1 基本形式
线性模型的基本形式如下:
其中w为(w1,w2,w3,.....wd);注意,w/b/y/xi等均为列向量!
优点:线性模型形式简单,并且可以通过引入层状结构或是高维映射来得到非线性模型;此外,w相当于各个x的权重,使得模型具有很好的可解释性。
3.2 线性回归
线性回归的形式和基本形式一样,如下所示:
在实际问题中,w和b的选择采用“最小二乘法”来确定,其中最小二乘法是指基于均方误差最小化来进行模型求解的方法。在线性回归中,最小二乘法就是想找到一条直线,使得所有样本到该直线的欧氏距离最小。其中均方误差与欧氏距离有一定的关系。求解过程如下:
求解最佳参数的过程称为线性回归模型的最小二乘“参数估计”,分别对w和b求导后得到:
而多元线性回归定义如下:
一个数据集D,样本由d个属性描述,此时我们试图学得:
类似于上面求解方法,多元线性回归将w和b放在一个向量中,形成增广矩阵=(w,b),计算得到:
可以看出,上述模型仅针对线性回归问题,那么对于非线性问题还能求解吗?答案是肯定的。
3.3 广义线性模型
假设我们认为示例所对应的输出标记是在指数尺度上变化,那可以将输出标记的对数作为线性模型逼近的目标,即:
这就是对数线性回归,该式在形式上仍是线性回归,但实质上已是求取输入空间到输出空间的非线性函数映射。
更一般的,考虑单调可微函数g(.),令:
这样的模型称为“广义线性模型”,其中g(.)称为联系函数。接下来将介绍当广义线性模型用于分类任务中的情况,也就是我们常说的对数几率回归——逻辑回归。
- 逻辑回归
逻辑回归中用到的函数为sigmoid函数,该函数是一个S型函数,当自变量趋近于正无穷时,标签y趋近于1;当自变量趋近于负无穷时,标签y趋近于0。它能将任何实数映射到(0,1)区间,使其可用于将任意值函数转化为更适合二分类的函数。公式如下:
注:其中的自变量并不单纯是x,而可能是x的函数,如线性回归模型中的wx+b。将其带入到sigmoid函数中,得到二元逻辑回归的一般表达式(其中二元是针对标签y而言的,即只有两个标签):
经过简单变化后得到:
其中y处于(0,1)区间,因此可以看成是模型将其分为正例时的概率,而(1-y)则是分为反例时的概率。因此上式可以看做是模型预测成正例的对数几率。
逻辑回归具有以下几个优点:
- 对于线性数据,逻辑回归运算速度快,计算效率甚至优于SVM和随机森林。
- 由于逻辑回归返回的是一个相对概率,而不是固定的分类结果如0,1,因此对于许多需要利用概率辅助决策的任务很有用,如银行中评分卡的制作。
3.4 线性判别分析LDA
线性判别分析本质上也是一种分类算法,其思想为:给定训练集样本,设法将其样本都投影到一条直线上,该直线需满足条件使得同类别的投影点尽可能的相近,不同类别的样本尽可能的远离。
在此过程中,判断条件为样本投影点的协方差,即相同样例投影点的协方差尽可能的小。具体就不详细介绍了,要用的时候再看吧呜呜呜,数学都忘了。
3.5 多分类学习
面对多分类问题,常用的方法是通过“拆解法”,即将多分类任务拆解为若干个二分类任务进行求解。最经典的拆分策略有以下三种:
- “一对一”,即OvO,通过将这N个类别两两分类,从而产生N(N-1)/2个二分类任务,并将样本交由所有分类器,最终结果由投票产生。
- “一对其余”,即“OvR”,该过程只需要训练N个分类器。
- “多对多”,即“MvM”,可以看出,上面两种方法均是其特例。
3.6 类别不平衡问题
前面介绍的方法均基于一个共同的假设,即不同类别的训练样本数目相当,但在实际生活中,常会遇到一些情况,如新冠肺炎的检查,在当今形势的控制下,得病的概率大大降低,即100个样本中可能才1个病例,将这样的数据放入分类器中进行分类,就算模型不经过调参也会有99%的准确率,但此时这样的结果没有任何意义。
类别不平衡就是指分类任务中不同类别的训练样本数相差较大的情况。
针对类别数量平衡的情况,由上面内容可以知道:
该式表明样本为正负例的概率均为0.5,即阈值为0.5。但是当训练集中正、反例数量不同时,令m+为正样本的数量,m-为负样本的数量,则观测几率为m+/m-,由于我们常假设“训练集是真实样本总体的无偏采样”,因此观测几率一般就代表了真实几率。即:
因此,我们重新构造一个y',即:
再将y'的相对概率与1进行比较,以此判断其类别。
然而,在实际操作中,训练集未必是真实样本总体的无偏估计,因此我们不能用训练集样本的观测几率来推断真实几率。现有技术大体有以下三种做法:
- 欠采样,即降低其中一些样本量较多的类别数目,以此使得正反例的数目相近,然后再进行学习。
- 过采样,即增加一些样本量较少的类别数目。
- 阈值移动,即不改变正负样本的数量,仅移动阈值的大小。例如,当正负样本相同时,阈值通常设置为0.5,但如果正样本有90个,负样本只有10个,可以设置阈值为0.1,仅当其值大于0.1时,预测为正样本,否则为负样本。
值得注意的是,过采样法不能简单的对初始样本进行重复采样,这样很容易使机器过度学习某些样本的特征,从而导致过拟合,常用的算法有SMOTE算法,通过对训练集中数量较少的类别进行插值来增加该类别的数量;另外,欠采样法也不能简单的删除一些信息,这样很容易丢失重要信息,现一般使用集成学习机制,将数量较多的类别划分为若干个集合供不能学习器学习,并以其平均值为最终结果。