统计学习,研究的基本问题就是给定一定的输入数据,从中找出数据的内在规律,从而构建分析模型,然后进行预测。
例如给定一个学校的几年之间的男生身高数据,想从中找到规律来预测下一年的身高平均值。。这类问题就是统计学习问题。
统计学习主要包括监督学习,无监督学习,半监督学习等等
统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。实现统计学习的步骤如下:
(1) 得到一个有限的训练数据集合;
(2) 确定包含所有可能的模型的假设空间,即学习模型的集合;
(3) 确定模型选择的准则,即学习的策略;
(4) 实现求解最优模型的算法,即学习的算法;
(5) 通过学习方法选择最优模型;
(6) 利用学习的最优模型对新数据进行预测或分析。
这个比较抽象了。。大家都懂得
统计学习理论这本书主要讨论的的是监督学习
监督学习:
监督学习通常是从训练集合中学习模型,对测试数据进行预测,训练数据由输入输出对组成
T={(x1,y1), (x2,y2)...(xn,yn)}
其中,输入输出为连续变量的预测问题是回归问题,上文提到的就是回归问题,输入变量为有限个离散变量的问题为分类问题,输入输出为变量序列的为标注问题
假设空间:
1.概率模型——P(Y|X)。
2.决策函数——f(X)。
监督学习模型:
1.概率模型——f通常是由一个参数向量决定的条件概率分布族。
2.决策模型——f通常是由一个参数向量决定的函数族。
监督学习策略:
1.损失函数:0-1损失函数,平方损失函数,绝对损失函数,对数损失函数or对数似然损失函数。
2.风险函数,期望损失:损失函数*联合概率的积分。
3.最小化:经验风险最小化,结构风险最小化。
监督学习算法:
优化问题:梯度下降,进化计算。
生成模型与判别模型
判别模型
该模型主要对p(y|x)或者y=f(x)进行建模,在建模的过程中不需要关注p(x,y)。只关心如何优化p(y|x)使得数据可分。由于直接学习p(y|x)或者f(x),可以对数据进行抽象,简化学习过程
生成模型
该模型对观察序列的联合概率分布p(x,y)建模,在获取联合概率分布之后,可以通过贝叶斯公式得到后验概率分布。生成式模型所带的信息要比判别式模型更丰富。