绪论
绪论中首先指出“寻找数据中的模式问题是一个基本问题”。作者通过手写数字识别举了一个例子:手写体变化多端,我们如何正确的将手写数字识别出来呢?
可能有人说,我们直接写程序给它设定规则就可以了,然而,由于总有我们考虑不到的手写体,每当发现新的程序识别不了的字符,我们必须增加新的规则,这就导致了规则的激增。比如下面的两个2,我们很难通过人工设定规则。

或者这么理解,我们希望有一个映射,可以将输入的图像,映射成对应的数字。人工方法设定的映射函数可能会非常庞大,因此我们需要探索更省力、效率更高的方法,那就是机器学习。

机器学习方法中,由N个数字图像 { x 1 , ⋯ , x N } \{x_1,\cdots,x_N\} {
x1,⋯,xN}组成的集合叫做训练集(training set),用来调节映射的参数。每个图像对应的数字都是已知的,使用目标向量(target vector) t t t来表示数字的类别标签。机器学习方法同样可以成是一个映射函数 f ( x ) f(x) f(x),他以图像 x x x为输入,以向量 y y y为输出。这里输出的 y y y向量形式与目标向量 t t t的形式相同。
- 训练阶段:确定函数 f ( x ) f(x) f(x)的精确形式,通过数字图像和已知标签来训练。
- 测试阶段:使用函数 f ( x ) f(x) f(x)预测新的图像(测试集)图像的标签。
- 泛化问题:对训练集之外的数据的预测性能。
另外原始的数字图像可能需要转换为新的变量空间(预处理)。如将图像转换为向量。如果训练图像进行了预处理,测试图像也需要进行相同的预处理。
训练数据的样本包含输入向量以及对应目标向量的应用叫做有监督学习(supervised learning)问题。训练数据由一组输入向量 x x x组成,没有任何对应的目标值。这叫无监督问题。反馈学习技术关注的问题是在给定的条件下,找到合适的动作,使得奖励达到最大值。
绪论主要介绍本书中最重要的三个工具:概率论、决策论、信息论。
多项式曲线拟合
从 s i n ( 2 π ) sin(2\pi) sin(2π)这个函数在0到1之间均匀取样,取样过程附加符合高斯分布的噪声,训练数据集由 x x x的 N N N次观测组成, x ≡ ( x 1 , ⋯ , x N ) T x\equiv(x_1,\cdots,x_N)^T x≡(x1,⋯,xN)T,观测值 t t t记作 t ≡ ( t 1 , ⋯ , t N ) t\equiv(t_1,\cdots,t_N) t≡(t1,⋯,tN)。
现在假如我们只有训练数据集 x x x和观测值集合 t t t,如何预测新的 x ^ \hat{x} x^的目标变量 t ^ \hat{t} t^。由于数据采样存在干扰,因此对于一个给定的 x ^ \hat{x} x^, t ^ \hat{t} t^具有不确定性。作者使用多项式函数来进行曲线拟合。 y ( x , w ) = w 0 + w 1 x + w 2 x 2 + ⋯ + w M x M = ∑ j = 0 M w y(x,w)=w_0+w_1x+w_2x^2+\cdots+w_Mx^M=\sum_{j=0}^{M}w y(x,w)=w0+w1x+w2x2+⋯+wMxM=j=0∑Mw其中 M M M是多项式的阶数, x j x^j xj表示 x x x的 j j j次幂。多项式系数 w 0 , ⋯ , w M w_0,\cdots,w_M w0,⋯,wM整体记作向量 w \boldsymbol{w} w。注意:虽然多项式函数 y ( x , w ) y(x,\boldsymbol{w}) y(x,w)是 x x x的一个非线性函数,但它是系数 w \boldsymbol{w} w的一个线性函数。
要想找到合适的 w \boldsymbol{w} w的值,需要使用最小化误差函数(error function)实现。例如每个数据点 x n x_n xn的预测值 y ( x n , w ) y(x_n,\boldsymbol{w}) y(xn,w)与目标值 t n t_n tn差的平方和。最小化error function就可以找到合适的 w \boldsymbol{w} w。 E ( w ) = 1 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 E(\boldsymbol{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\boldsymbol{w})-t_n\}^2 E(w)=21n=1∑N{
y(xn,w)−tn}2这是一个非负量,如果所有值都预测正确,误差函数 E ( x ) = 0 E(x)=0

本文介绍了机器学习中的模式识别问题,通过手写数字识别的例子引入。文中详细阐述了多项式曲线拟合在有高斯噪声数据中的应用,以及如何通过最小化误差函数来确定最佳拟合参数。同时,讨论了概率论中的贝叶斯定理在处理不确定性问题中的作用,特别是在最大似然估计中的应用。文章还提到了模型复杂度的选择问题,指出过度拟合的原因和解决策略。
最低0.47元/天 解锁文章
2294

被折叠的 条评论
为什么被折叠?



