统计学习方法——统计学习基础(一)

本文介绍了统计学习的基本概念,包括监督学习、模型、策略和算法。阐述了监督学习的目标、输入输出空间、假设空间以及损失函数。讨论了过拟合和欠拟合现象,并解释了模型选择的重要性。通过对训练误差和测试误差的分析,揭示了结构风险最小化在防止过拟合中的作用。
摘要由CSDN通过智能技术生成

统计学习概论(一)

统计学习

统计学习的特点
  • 建立在计算机与网络的基础上
  • 以数据为研究对象
    • 基本假设:同类数据具有一定的统计规律性。
  • 以方法为中心
    • 常用方法
      • 监督学习
      • 非监督学习
      • 半监督学习
      • 强化学习
  • 目标是对数据进行预测与分析
统计学习的方法
  • 监督学习
    • 给定的、有限的、用于学习的训练集出发
    • 假设数据独立同分布
    • 假设要学习的模型属于某个函数的集合,称为假设空间
    • 采用评价标准从假设空间选择最优的模型

可以总结出统计学习的三要素:模型、策略和算法。

监督学习

监督学习的任务是学习一个模型,使模型能够对任意给定的输入能做出一个好的预测。

基本概念
  • 输入空间:所有与样本相关的可以获得的信息,记作 X X X
  • 特征空间:所有特征向量存在的空间,一般与输入空间不加区分
  • 输出空间:一般为分类(预测)的结果,记作 Y Y Y
  • 联合概率分布
    • 监督学习假设输入和输出的随机变量 X X X Y Y Y遵循联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)
    • 训练集和测试集的数据被看作依联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生的。
  • 假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间,记为 F \mathcal{F} F
    F = { f ∣ Y = f ( X ) } \mathcal{F}=\left\{f|Y=f(X)\right\} F={ fY=f(X)}
    此时 A \mathcal{A} A通常是由一个参数向量决定的函数族:
    F = { f ∣ Y = f θ ( X ) , θ ∈ R n } \mathcal{F}=\left\{f|Y=f_\theta(X),\theta\in R^n\right\} F={ fY=fθ(X),θRn}
    参数向量 θ \theta θ取值于 n n n维欧氏空间 R n R^n Rn,称为参数空间。
  • 监督学习的模型:可以是概率模型或非概率模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)或决策函数 Y = f ( x ) Y=f(x) Y=f(x)表示。
问题形式化

通过一个简单的图展示监督学习的过程:
在这里插入图片描述

  • 训练集: T = { ( x 1 , y 1 ) , . . . , ( x N , y N ) } T=\left\{(x_1,y_1),...,(x_N,y_N)\right\} T={ (x1,y1),...,(xN,yN)},其中每一个都称为样本点, x i x_i xi为输入值, y i y_i yi为输出值。
  • 训练的模型:表示为 P ^ ( Y ∣ X ) \hat P(Y|X) P^(YX) Y = f ^ ( X ) Y=\hat f(X) Y=f^(X)
  • 预测的结果:假设待预测的样本为 x N + 1 x_{N+1} xN+1,则结果记为 y N + 1 = a
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值