之前详细整理介绍了MNIST数据集,接下来详细介绍怎么构建模型
对于分类问题来讲,目标其实就是最大化某个性能指标,比如准确度,但是把精准度当作损失函数去优化的时候,其实是不可导的,不能使用梯度下降去优化参数。一般的做法是设立一个平滑可导的代理目标函数,比如优化模型的输出o和one-hot编码后的真是标签y之间的距离,通过优化代理目标函数得到的模型,测试性能上也能有良好的表现。 因此,相对回归问题而言,分类问题的优化目标函数和评价目标函数是不一致的。
对于分类问题的误差计算来说,更常见的是采用交叉熵(Cross Entropy)损失函数,较少采用回归问题中介绍的均方差损失函数。那我就便用均方差损失函数,采用梯度下降算法来优化损失函数得到𝑾, 𝒃的最优解,然后再利用模型去预测位置的手写数字模型。
可是这样真的能解决问题吗?目前看来,最少存在两个严重的问题:
线性模型 线性模型是机器学习中间最简单的数学模型之一,参数量少,计算简单,但 是只能表达线性关系。即使是简单如数字图片识别任务,它也是属于图片识别的范畴,如果只使用一 个简单的线性模型去逼近复杂的人脑图片识别模型,很显然不能胜任。
表达能力 表达能力体现为逼近复杂分布的能力,这个方案只是用了少量的神经元,表达能力偏弱。
如图:绘制了带观测误差的采 样点的分布