李航《统计学习方法(第二版)》笔记:第一章——统计学习及监督学习概论(一)

本文深入探讨统计学习的概念,包括监督学习、无监督学习、强化学习和半监督学习的基本分类。监督学习是通过标注数据学习输入到输出的映射,如分类和回归问题;无监督学习则从无标注数据中学习统计规律。统计学习方法的三要素是模型、策略和算法,其目的是构建概率统计模型,以进行预测和分析。
摘要由CSDN通过智能技术生成

1. 统计学习概念

赫尔伯特·西蒙:“如果一个系统能够通过执行某个过程改进他的性能,这就是学习。”

  1. 统计学习(statistical learning)的定义:
  • 计算机系统通过运用数据及统计方法提高系统性能的机器学习
  • 基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称为统计机器学习(statistical machine learning)。
  1. 统计学习的对象:数据,包括数字、文字、图像、视频、音频及它们的组合。
  2. 统计学习的目的:基于数据构建概率统计模型,获得对数据的准确的预测(使计算机智能化)与分析(获取新知识新发现)。要考虑学习什么样的模型,如何学习模型,怎样提高学习效率。
  3. 统计学习的方法:监督学习(supervised learning)——分类、标注、回归;无监督学习(unsupervised learning);强化学习(reinforcement learning)
  • 三要素:模型、策略、算法
  • 步骤:
    (1)获取一个优先的训练数据集合
    (2)确定包含所有可能的魔性的假设空间,即学习模型的集合
    (3)确定模型选择的准则,即学习的策略
    (4)实现求解最优模型的算法,即学习的算法
    (5)通过学习方法选择最优模型
    (6)利用学习的最优模型对新数据进行预测或分析

2. 统计学习分类

2.1 基本分类
2.1.1 监督学习
  1. 定义:需要标注的训练数据集,学习一个由输入到输出的映射(以模型表示),来进行预测。

  2. 基本元素:输入空间X、特征空间、输出空间Y

  3. 根据输入输出变量的不同类型(连续/离散/序列),把预测任务分类为:
    输入变量与输出变量为连续变量的预测问题——回归问题
    输出变量为有限个离散变量的预测问题——分类问题
    输入变量与输出变量均为变量序列的预测问题——标注问题

  4. 前提假设:X和Y具有联合概率分布,即存在分布(密度)函数P(X,Y)
    统计学习的目的就是找到两个随机变量的联合概率分布P(X,Y)
    联合密度分布参考:https://blog.csdn.net/qq_39636214/article/details/85036837

  5. 可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数(decision function)Y=f(X)表示,随具体学习方法而定。
    监督学习

2.1.2 无监督学习
  1. 定义:从无标注数据中学习统计规律或潜在结构,建立预测模型的机器学习问题
  2. 基本元素:输入空间(每个输入是一个实例,由特征向量表示)、输出空间(每个输出是对输入的分析结果,由类别、转换、概率表示)
  3. 预测问题分类(预测结果):数据的聚类、降维、概率估计
    无监督学习
2.1.3 强化学习
  1. 定义:智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。

  2. 预测结果:假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。

  3. 本质:学习最优的序贯决策。

  4. 图解:
    在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值