统计学习方法——统计学习基础（一）

最新推荐文章于 2024-04-13 21:30:27 发布

你的名字5686

最新推荐文章于 2024-04-13 21:30:27 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：机器学习统计学习原理与实现

本文链接：https://blog.csdn.net/wk19951125/article/details/88430014

版权

本文介绍了统计学习的基本概念，包括监督学习、模型、策略和算法。阐述了监督学习的目标、输入输出空间、假设空间以及损失函数。讨论了过拟合和欠拟合现象，并解释了模型选择的重要性。通过对训练误差和测试误差的分析，揭示了结构风险最小化在防止过拟合中的作用。

摘要由CSDN通过智能技术生成

统计学习概论（一）

监督学习
- 从给定的、有限的、用于学习的训练集出发
- 假设数据独立同分布
- 假设要学习的模型属于某个函数的集合，称为假设空间
- 采用评价标准从假设空间选择最优的模型

可以总结出统计学习的三要素：模型、策略和算法。

监督学习的任务是学习一个模型，使模型能够对任意给定的输入能做出一个好的预测。

输入空间：所有与样本相关的可以获得的信息，记作 $X$
特征空间：所有特征向量存在的空间，一般与输入空间不加区分
输出空间：一般为分类（预测）的结果，记作 $Y$
联合概率分布
- 监督学习假设输入和输出的随机变量 $X$ 和 $Y$ 遵循联合概率分布 $P (X, Y)$ 。
- 训练集和测试集的数据被看作依联合概率分布 $P (X, Y)$ 独立同分布产生的。
假设空间：模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间，记为 $\mathcal{F}$ 。
$\mathcal{F}=\left\{f|Y=f(X)\right\}$
此时 $\mathcal{A}$ 通常是由一个参数向量决定的函数族：
$\mathcal{F}=\left\{f|Y=f_\theta(X),\theta\in R^n\right\}$
参数向量 $\theta$ 取值于 $n$ 维欧氏空间 $R^n$ ，称为参数空间。
监督学习的模型：可以是概率模型或非概率模型，由条件概率分布 $P (Y ∣ X)$ 或决策函数 $Y = f (x)$ 表示。

通过一个简单的图展示监督学习的过程：
在这里插入图片描述

训练集： $T=\left\{(x_1,y_1),...,(x_N,y_N)\right\}$ ，其中每一个都称为样本点， $x_i$ 为输入值， $y_i$ 为输出值。
训练的模型：表示为 $\hat P(Y|X)$ 或 $Y=\hat f(X)$
预测的结果：假设待预测的样本为 $x_{N+1}$ ，则结果记为

关注