3.1分类问题示例
1、图像分类
数据集:ImageNet
权重向量×Xi+偏置=得分,哪个类别得分高就分为哪类
2、垃圾邮件过滤
3、文档归类:运动类、科技类、时尚类
4、情感分类:消极、中立、积极
5、文本分类建模:将样本x从文本形式转为向量形式。词袋模型
3.2、线性分类模型
1、线性模型做分类:线性函数外面套一个离散函数
2、二分类问题
0-1损失函数
3、多分类问题
y的标签类别数大于2
argmax分类方式:优点就是消除了模糊区域
线性模型:Logistic回归、Softmax回归、感知器、支持向量机;区别就是所用的损失函数不一样,所以训练出来的模型不一样。
3.3交叉熵与对数似然
1、信息
2、熵
熵用来衡量一个随机事件的不确定性。熵越高,则随机变量的信息越多;熵越低,则随机变量的信息越少。
自信息:
熵:随机变量X的自信息的数学期望。分布越均衡,熵越大。
熵编码:在对分布p(y)的符号进行编码时,熵H(p)也是理论上最优的平均编码长度,这种编码方式称为熵编码。
3、交叉熵
p=q,则交叉熵变为熵;交叉熵越大,表名p与q差异越大
4、KL散度
p=q,则KL散度为0;p与q差异越大,KL散度越大。
3.4、Logistic回归
也称为对数几率回归,简称对率回归
将分类问题看作条件概率估计问题
1、Logistic函数
2、参数的学习
梯度下降方法:
3.5、Softmax回归
1、多分类问题,可以转为多个二分类问题。学习准则:转换为条件概率建模pθ(y=c|x)
2、Softmax函数:
3、参数学习
3.6、感知器(机)
1、
2、学习算法
发生错误,调整参数,使得ywx大于0.
根据感知器的学习策略,可以反推出感知器的损失函数为:
3、感知器收敛性
3.7、支持向量机(SVM)
1、间隔:决策边界到分类样本的最短距离。支持向量机优化准则:选择间隔最大的决策边界
2、
找到间隔最大的超平面
3、软间隔
在支持向量机的优化问题中,如果训练集中的样本不是线性可分的,就无法找到最优解。为了能够容忍部分不满足约束的样本,可以引入松弛变量。
3.8、线性分类模型小结
1、不同损失函数的对比
平方损失不适合做分类任务
Hinge损失直觉上会带来更好的效果
2、线性分类模型小结
3、XOR问题(异或问题)
感知器无法解决异或问题