统计学习方法——统计学习
统计学习概论(一)
统计学习
统计学习的特点
- 建立在计算机与网络的基础上
- 以数据为研究对象
- 基本假设:同类数据具有一定的统计规律性。
- 以方法为中心
- 常用方法
- 监督学习
- 非监督学习
- 半监督学习
- 强化学习
- 常用方法
- 目标是对数据进行预测与分析
统计学习的方法
- 监督学习
- 从给定的、有限的、用于学习的训练集出发
- 假设数据独立同分布
- 假设要学习的模型属于某个函数的集合,称为假设空间
- 采用评价标准从假设空间选择最优的模型
可以总结出统计学习的三要素:模型、策略和算法。
监督学习
监督学习的任务是学习一个模型,使模型能够对任意给定的输入能做出一个好的预测。
基本概念
- 输入空间:所有与样本相关的可以获得的信息,记作 X X X
- 特征空间:所有特征向量存在的空间,一般与输入空间不加区分
- 输出空间:一般为分类(预测)的结果,记作 Y Y Y
- 联合概率分布
- 监督学习假设输入和输出的随机变量 X X X和 Y Y Y遵循联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)。
- 训练集和测试集的数据被看作依联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生的。
- 假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间,记为 F \mathcal{F} F。
F = { f ∣ Y = f ( X ) } \mathcal{F}=\left\{f|Y=f(X)\right\} F={ f∣Y=f(X)}
此时 A \mathcal{A} A通常是由一个参数向量决定的函数族:
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } \mathcal{F}=\left\{f|Y=f_\theta(X),\theta\in R^n\right\} F={ f∣Y=fθ(X),θ∈Rn}
参数向量 θ \theta θ取值于 n n n维欧氏空间 R n R^n Rn,称为参数空间。 - 监督学习的模型:可以是概率模型或非概率模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)或决策函数 Y = f ( x ) Y=f(x) Y=f(x)表示。
问题形式化
通过一个简单的图展示监督学习的过程:
- 训练集: T = { ( x 1 , y 1 ) , . . . , ( x N , y N ) } T=\left\{(x_1,y_1),...,(x_N,y_N)\right\} T={ (x1,y1),...,(xN,yN)},其中每一个都称为样本点, x i x_i xi为输入值, y i y_i yi为输出值。
- 训练的模型:表示为 P ^ ( Y ∣ X ) \hat P(Y|X) P^(Y∣X)或 Y = f ^ ( X ) Y=\hat f(X) Y=f^(X)
- 预测的结果:假设待预测的样本为 x N + 1 x_{N+1} xN+1,则结果记为 y N + 1 = a