统计学习方法概论

1.监督学习

统计学习方法包括了

  • 监督学习(Supervised Learning)
  • 非监督学习(Unsupervised Learning)
  • 半监督学习(Semi-supervised Learning)
  • 强化学习(Reinforcement Learning)

《统计学习方法》这本书主要讲的是一些常见的监督学习的方法。

2.基本概念

输入空间,输出空间与特征向量

假设我们有一个训练数据集合T,集合大小为N,

T={(x1,y1),(x2,y2),...,(xN,yN)}

所有的输入 xi 都是输入变量,而输入变量的取值空间为 输入空间;所有的输出 yi 都是输出变量,输出变量的取值空间为 输出空间

每个 xi 又可以表示为一个特征向量的形式

xi=(x(1)i,x(2)i,...,x(n)i)T

其中,n表示特征向量的个数, x(2)i 表示第i个训练数据的输入 xi 的第2个特征。最后的T表示特征向量的转置,因为我们一般都用列向量来表示。

联合概率分布

监督学习关于数据有如下假设:输入与输出随即变量X和Y服从联合概率分布 P(X, Y),而训练数据和测试数据被看做是依照联合概率分布 P(X, Y) 独立同分布产生的。

假设空间(hypothesis space)

机器学习想要学习到的模型,即输入空间到输出空间的映射,可以用决策函数(decision function or hypothesis function)来表示,

  • 概率模型用 P(Y | X)
  • 非概率模型用 Y=f(X)

决策函数的取值空间,叫做假设空间。


3.统计学习三要素

统计学习三要素是模型,策略和算法。

3.1 模型

模型就是机器学习中要学习的条件概率分布或者决策函数,他们的集合就是假设空间 F ,如下两种:

  • 决策函数 F={ f | Y=fθ(X),θRn}

    • 条件概率分布 F={P | Pθ(Y | X),θRn}
    • 参数向量 θ 取值于n维的欧式空间 Rn ,也称为参数空间。

      3.2 策略

      这部分主要是定义损失函数来评价模型预测的好坏,从而可以从假设空间里选取最优的模型。

      损失函数

      常见的损失函数有:

      • 0-1 损失函数(0-1 loss function)
        L(Y, f(X))={1,0,Yf(X)Y=f(X)
      • 平方损失函数(quadratic loss function)
        L(Y, f(Y))=(Yf(X))2
      • 绝对值损失函数(absolute loss function)
        L(Y, f(X))=|Yf(X)|
      • 对数损失函数(logarithmic loss function)或者叫对数似然损失函数(logarithmic likelihood loss function)
        L(Y, P(Y | X))=logP(Y | X)
      期望风险(expected risk)

      期望风险,或者叫风险函数,表示理论上模型 f(X) 关于联合分布 P(X,Y) 的平均意义下的损失。

      Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy

      经验风险(empirical risk)

      经验风险,或者叫经验损失,表示模型 f(X) 关于训练数据集的平均损失。

      Remp(f)=1Ni=1NL(yi,f(xi))

      结构风险(strcutural risk)

      结构风险,是在经验风险的基础上,加上正则化项(regularization)者惩罚项(penalty term)函数,以防止小数据集出现过拟合现象。

      Rsrm(f)=1Ni=1NL(yi,f(xi))+λJ(f)

      3.3 算法

      感知机,K近邻,朴素贝叶斯,决策树,逻辑斯特回归,最大上模型,支持向量机,AdaBoosting,EM算法,隐马尔科夫模型,条件随机场


      4.模型评估与模型选择

      欠拟合和过拟合的概念。

      5.正则化与交叉验证

      正则化

      上面提取到的结构风险,后面常加上正则项 J(f) ,若取损失函数为平方损失,设 w 为参数向量,若正则项取参数向量的 L2 范数,

      L(w)=1Ni=1N[ f(xi;w)yi]2+λ2||w||2

      若正则项取参数向量的 L1 范数,
      L(w)=1Ni=1N[ f(xi;w)yi]2+λ ||w||1

      注:向量 w p-范数 定义为 ||w||=ni=1| xi | pq ,如 L0 范数就是向量中非0元素的个数,L1 范数就是向量各项绝对值之和,L2 范数就是平方和开根号。

      正则化是符合奥卡姆剃刀(Occam’s razor)原理的。

      交叉验证

      可以将数据分成下面三部分:

      • 训练集(training set)
      • 验证集(validation set)
      • 测试集(test set)

      6.泛化能力

      存在泛化误差上界(generalization error bound),可用 Hoeffding 不等式证明。

      7.生成模型与判别模型

      生成模型(generative model)

      生成模型可以还原出联合概率分布 P(X,Y) ,然后通过贝叶斯规则求出条件概率分布 P(Y | X) ,更接近与真实的模型,典型的生成模型有朴素贝叶斯,隐马尔科夫模型。

      判别模型(discriminative model)

      判别模型则是直接判别类别,即直接计算概率 P(Y | X)


      8.分类问题

      评价二分类的准确率,我们往往用下面的标准,可定义:

      • TP——将正类预测成正类数
      • FN——将正类预测成负类数
      • FP——将负类预测为正类数
      • TN——将负类预测为负类数

      精确率(P,Precision)定义为

      P=TPTP+FP

      召回率(R,Recall)定义为
      R=TPTP+FN

      F1 值,是精确率和召回率的调和均值,即
      2F1=1P+1R
       代入计算得,
      F1=2TP2TP+FP+FN

      9.标注问题

      标注(tagging),也是一个监督问题,可以认为是分类问题的一个推广。标注问题的输入是一个观测序列,输出是一个标记序列,或者状态序列。

      给定训练集T

      T={(x1,y1),(x2,y2),...,(xN,yN)}

      其中某个样本 (xi,yi) 可以写做:

      • xi=(x(1)i,x(2)i,...,x(n)i)T 为输入序列,或称观测序列
      • yi=(y(1)i,y(2)i,...,y(n)i)T 为输出序列,也即标记序列
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值