【统计学习方法】——Notes_[Day03]

统计学习

一、统计学习概述

1.5 泛化能力

概念理解
泛化误差(Generalizaztion Error)

训练的模型对未知数据预测的误差即为泛化误差
泛化误差

泛化误差上界

泛化误差上界指泛化误差概率的上界。
通常通过比较泛化误差上界的大小来比较两种学习方法的优劣。

性质

  • 当样本容量增加时,泛化误差的上界趋于0
  • 假设空间(所有可能的模型组成的空间)容量越大,模型就越难学,泛化误差上界就越大

定理
泛化误差上界定理
式中:d代表假设空间中函数的个数,N代表训练集中样本的个数。

  • 如上式所示,如果N趋于∞大,则该ε的值趋于0。同时训练误差R_hat(f)是训练集损失函数和的平均值,N趋于∞,样本量足够大,则训练误差也会趋于0。则泛化误差上界也会趋于0。
  • 当假设空间越来越复杂时,即d越来越大,ε就会变大。所以随着d的增加,泛化误差上界也会增大。
例子

对于二分类问题,数据集和假设空间如下:
二分类问题_1
二分类问题_2

1.6 生成模型与判别模型

生成模型

隐马尔可夫模型就是时间序列的概率模型。
生成模型
注:生成模型输入和输出变量要求为随机变量

常见的生成模型有:朴素贝叶斯法、隐马尔可夫模型等。

判别模型

判别模型
注:判别模型不需要输入和输出变量均为随机变量

常见的判别模型:k近邻法、感知机、决策树等。

对比

生成模型和判别模型的对比:

  • 生成模型需要从大量的数据中寻找规律,学习数据是如何生成的,之后再对数据进行分类。而判别模型侧重于通过差别分类即可(如小狗和大象的鼻子长度不同),有针对性。
    对比
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值