第1篇 监督学习

第1篇 监督学习

第1章 统计学习及监督学习概论

本书第1篇讲述监督学习方法。监督学习是从标注数据中学习模型的机器学习问题,是统计学习或机器学习的重要组成部分。

本章简要叙述统计学习及监督学习的一些基本概念。使读者对统计学习及监督学习有初步了解。

1.1 统计学习

1. 统计学习的特点

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statistical machine learning)。

统计学习的主要特点是:

  1. 统计学习以计算机及网络为平台,是建立在计算机及网络上的;
  2. 统计学习以数据为研究对象,是数据驱动的学科;
  3. 统计学习的目的是对数据进行预测与分析;
  4. 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
  5. 统计学习是概率论、统计学、信息论、计算理论、优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。

赫尔伯特·西蒙(Herbert A. Simon)曾对“学习”给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器学习时,往往是指统计机器学习。所以可以认为本书介绍的是机器学习方法。

2. 统计学习的对象

统计学习研究的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。

统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习前提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。由于它们具有统计规律性,所以可以用概率统计方法处理它们。

比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。在统计学习中,以变量或变量组表示数据。数据分为由连续变量和离散变量表示的类型。本书以讨论离散变量的方法为主。另外,本书只涉及利用数据构建模型及利用模型对数据进行分析与预测,对数据的观测和收集等问题不作讨论。

3. 统计学习的目的

统计学习用于对数据的预测与分析,特别是对未知新数据的预测与分析。对数据的预测可以使计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获取新的知识,给人们带来新的发现。

对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

4. 统计学习的方法

统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。统计学习由监督学习(supervised learning)、无监督学习(unsupervised learning)和强化学习(reinforcement learning)等组成。

本书第1篇讲述监督学习,第2篇讲述无监督学习。可以说监督学习、无监督学习方法是最主要的统计学习方法。

统计学习方法可以概括如下:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。

实现统计学习方法的步骤如下:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析。

本书第1篇介绍监督学习方法,主要包括用于分类、标注与回归问题的方法。这些方法在自然语言处理、信息检索、文本数据挖掘等领域中有着极其广泛的应用。

5. 统计学习的研究

统计学习研究一般包括统计学习方法、统计学习理论及统计学习应用三个方面。统计学习方法的研究旨在开发新的学习方法;统计学习理论的研究在于探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;统计学习应用的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题。

6. 统计学习的重要性

近二十年来,统计学习无论是在理论还是在应用方面都得到了巨大的发展,有许多重大突破,统计学习已被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音处理、计算视觉、信息检索、生物信息等许多计算机应用领域中,并且成为这些领域的核心技术。人们确信,统计学习将会在今后的科学发展和技术应用中发挥越来越大的作用。

统计学习学科在科学技术中的重要性主要体现在以下几个方面:

  1. 统计学习是处理海量数据的有效方法。我们处于一个信息爆炸的时代,海量数据的处理与利用是人们必然的需求。现实中的数据不但规模大,而且常常具有不确定性,统计学习往往是处理这类数据最强有力的工具。
  2. 统计学习是计算机智能化的有效手段。智能化是计算机发展的必然趋势,也是计算机技术研究与开发的主要目标。近几十年来,人工智能等领域的研究证明,利用统计学习模仿人类智能的方法,虽有一定的局限性,还是实现这一目标的最有效手段。
  3. 统计学习是计算机科学发展的一个重要组成部分。可以认为计算机科学由三维组成:系统、计算、信息。统计学习主要属于信息这一维,并在其中起着核心作用。

1.2 统计学习的分类

统计学习或机器学习是一个范围宽阔、内容繁多、应用广泛的领域,并不存在(至少现在不存在)一个统一的理论体系涵盖所有内容。下面从几个角度对统计学习方法进行分类。

1.2.1 基本分类

统计学习或机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。

  1. 监督学习

    监督学习(supervised learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。

    • 输入空间、特征空间和输出空间

      在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space)。输入与输出空间可以是有限元素的集合,也可以是整个欧几里得空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间;但通常输出空间远远小于输入空间。

      每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。这时,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于一个特征。有时假设输入空间与特征空间为相同的空间,对它们不予区分;有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。模型实际上是定义在特征空间上的。

      在监督学习中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。输入输出变量用大写字母表示,习惯上输入变量写作X,输出变量写作Y。输入输出变量的取值用小写字母表示,输入变量的取值写作x,输出变量的取值写作y。变量可以是标量或向量,都用相同类型的字母表示。除特别声明外,本书中向量均为列向量。输入实例x的特征向量记作:

      x = ( x ( 1 ) , x ( 2 ) , … , x ( n ) ) T x = (x^{(1)}, x^{(2)}, \ldots, x^{(n)})^T x=(x(1),x(2),,x(n))T

      其中 x ( i ) x^{(i)} x(i) 表示第i个特征。注意 x x x x ( i ) x^{(i)} x(i)不同,本书通常用 x x x表示多个输入变量中的第 i i i个变量,即
      x = ( x i ( 1 ) , x i ( 2 ) , … , x i ( n ) ) T x = (x_i^{(1)}, x_i^{(2)}, \ldots, x_i^{(n)})^T x=(xi(1),xi(2),,xi(n))T

    • 联合概率分布

      监督学习假设输入与输出的随机变量X和Y遵循联合概率分布 P ( X , Y ) P(X, Y) P(X,Y)

      P ( X , Y ) P(X, Y) P(X,Y) 表示分布函数,或分布密度函数。注意在学习过程中,假定这一联合概率分布存在,但对学习系统来说,联合概率分布的具体定义是未知的。训练数据与测试数据被看作是依联合概率分布 P ( X , Y ) P(X, Y) P(X,Y) 独立同分布产生的。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布就是监督学习关于数据的基本假设。

    • 假设空间

      监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习的范围的确定。

      监督学习的模型可以是概率模型或非概率模型,由条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX)或决策函数 Y = f ( X ) Y = f(X) Y=f(X)表示,随具体学习方法而定。对具体的输入进行相应的输出预测时,写作 P ( y ∣ x ) P(y|x) P(yx) y = f ( x ) y = f(x) y=f(x)

    • 问题的形式化

      监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测。由于在这个过程中需要标注的训练数据集,而标注的训练数据集往往是人工给出的,所以称为监督学习。监督学习分为学习和预测两个过程,由学习系统与预测系统完成,可用图1.1来描述。
      在这里插入图片描述

      首先给定一个训练数据集:

      T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T = \{(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)}

      其中 ( x i , y i ) (x_i, y_i) (xi,yi) i = 1 , 2 , … , N i = 1, 2, \ldots, N i=1,2,,N,称为样本或样本点。 x ∈ X n x \in \mathcal{X}^n xXn 是输入的观测值,也称为输入或实例, y y y 是输出的观测值,也称为输出。

      监督学习分为学习和预测两个过程,由学习系统与预测系统完成。在学习过程中,学习系统利用给定的训练数据集,通过学习(或训练)得到一个模型,表示为条件概率分布 P ^ ( Y ∣ X ) \hat{P}(Y|X) P^(YX) 或决策函数 Y = f ^ ( X ) Y =\hat{f}(X) Y=f^(X)。条件概率分布 P ^ ( Y ∣ X ) \hat{P}(Y|X) P^(YX) 或决策函数 Y = f ^ ( X ) Y = \hat{f}(X) Y=f^(X)描述输入与输出随机变量之间的映射关系。在预测过程中,预测系统对于给定的测试样本集中的输入 x N + 1 x_{N+1} xN+1由模型 y N + 1 = arg ⁡ max ⁡ P ^ ( y ∣ x N + 1 ) y_{N+1} = \arg\max \hat{P}(y|x_{N+1}) yN+1=argmaxP^(yxN+1) y N + 1 = f ^ ( x N + 1 ) y_{N+1} = \hat{f}(x_{N+1}) yN+1=f^(xN+1) 给出相应的输出 y N + 1 y_{N+1} yN+1

      在监督学习中,假设训练数据与测试数据是依联合概率分布 P ( X , Y ) P(X, Y) P(X,Y) 独立同分布产生的。

      学习系统(也就是学习算法)试图通过训练数据集中的样本 ( x i , y i ) (x_i, y_i) (xi,yi) 带来的信息学习模型。具体地说,对输入 x i x_i xi,一个具体的模型 y = f ( x ) y = f(x) y=f(x) 可以产生一个输出 f ( x i ) f(x_i) f(xi),而训练数据集中对应的输出是 y i y_i yi。如果这个模型有很好的预测能力,训练样本输出 y i y_i yi 和模型输出 f ( x i ) f(x_i) f(xi) 之间的差就应该足够小。学习系统通过不断地尝试,选取最好的模型,以便对训练数据集有足够好的预测,同时对未知的测试数据集的预测也有尽可能好的推广。

  2. 无监督学习

    无监督学习(unsupervised learning)是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。

    模型的输入与输出的所有可能取值的集合分别称为输入空间与输出空间。输入空间与输出空间可以是有限元素集合,也可以是欧氏空间。每个输入是一个实例,由特征向量表示。每一个输出是对输入的分析结果,由输入的类别、转换或概率表示。模型可以实现对数据的聚类、降维或概率估计。

    假设 x x x 是输入空间, z z z 是隐式结构空间。要学习的模型可以表示为函数 z = g ( x ) z = g(x) z=g(x),条件概率分布 P ( z ) P(z) P(z),或者条件概率分布 P ( x ∣ z ) P(x|z) P(xz) 的形式,其中 x x x 是输入, z z z 是输出。包含所有可能的模型的集合称为假设空间。无监督学习旨在从假设空间中选出在给定评价标准下的最优模型。

    无监督学习通常使用大量的无标注数据学习或训练,每一个样本是一个实例。训练数据表示为 : U = { x 1 , x 2 , … , x N } U = \{x_1, x_2, \ldots, x_N\} U={x1,x2,,xN},其中 i = 1 , 2 , … , N i = 1, 2, \ldots, N i=1,2,,N是样本。

    无监督学习可以用于对已有数据的分析,也可以用于对未来数据的预测。分析时使用学习得到的模型,即函数 z = g ( x ) z = g(x) z=g(x),条件概率分布 P ( z ) P(z) P(z),或者条件概率分布 P ( x ∣ z ) P(x|z) P(xz)。预测时,和监督学习有类似的流程。由学习系统与预测系统完成,如图1.2所示。在学习过程中,学习系统从训练数据集学习,得到一个最优模型,表示为函数 z = g ^ ( x ) z = \hat{g}(x) z=g^(x),条件概率分布 P ^ ( z ) \hat{P}(z) P^(z) 或者条件概率分布 P ^ ( x ∣ z ) \hat{P}(x|z) P^(xz)。在预测过程中,预测系统对于给定的输入 x N + 1 x_{N+1} xN+1 由模型 z N + 1 = g ^ ( x N + 1 ) z_{N+1} = \hat{g}(x_{N+1}) zN+1=g^(xN+1) z N + 1 = arg ⁡ max ⁡ P ^ ( z ∣ x N + 1 ) z_{N+1} = \arg\max \hat{P}(z|x_{N+1}) zN+1=argmaxP^(zxN+1) 给出相应的输出 z N + 1 z_{N+1} zN+1,进行聚类或降维,或者由模型 P ^ ( x N + 1 ∣ z N + 1 ) \hat{P}(x_{N+1}|z_{N+1}) P^(xN+1zN+1)给出输入的概率 P ^ ( x N + 1 ∣ z N + 1 ) \hat{P}(x_{N+1}|z_{N+1}) P^(xN+1zN+1),进行概率估计。
    在这里插入图片描述

  3. 强化学习

    强化学习(reinforcement learning)是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程(Markov decision process),智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。

    智能系统与环境的互动如图1.3所示。在每一步 t t t,智能系统从环境中观测到一个状态 ( s t a t e ) (state) (state) S t S_t St 与一个奖励 ( r e w a r d ) (reward) (reward) r t r_t rt,采取一个动作 ( a c t i o n ) (action) (action) a t a_t at。环境根据智能系统选择的动作,决定下一步 t + 1 t+1 t+1的状态 S t + 1 S_{t+1} St+1与奖励 r t + 1 r_{t+1} rt+1。要学习的策略表示为给定的状态下采取的动作。智能系统的目标不是短期奖励的最大化,而是长期累积奖励的最大化。强化学习过程中,系统不断地试错(trial and error),以达到学习最优策略的目的。

    智能系统与环境的互动如图1.3所示。
    在这里插入图片描述

    强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由五元组 ( S , A , P , r , γ ) (S, A, P, r, \gamma) (S,A,P,r,γ) 组成。

    • S S S 是有限状态(state)的集合
    • A A A 是有限动作(action)的集合
    • P P P 是状态转移概率(transition probability)函数:
      P ( s t + 1 ∣ s t , a t ) = Pr ⁡ ( s t + 1 = s ∣ s t = S , a t = a ) P(s_{t+1} | s_t, a_t) = \Pr(s_{t+1} = s | s_t = S, a_t = a) P(st+1st,at)=Pr(st+1=sst=S,at=a)
    • r r r 是奖励函数(reward function):
      r ( s , a ) = E [ r t + 1 ∣ s t = s , a t = a ] r(s, a) = \mathbb{E}[r_{t+1} | s_t = s, a_t = a] r(s,a)=E[rt+1st=s,at=a]
    • γ \gamma γ 是衰减系数(discount factor): γ ∈ [ 0 , 1 ] \gamma \in [0, 1] γ[0,1]

    马尔可夫决策过程具有马尔可夫性,下一个状态只依赖于前一个状态与动作,由状态转移概率函数 P ( s t + 1 ∣ s t , a t ) P(s_{t+1} | s_t, a_t) P(st+1st,at)表示。下一个奖励依赖于前一个状态与动作,由奖励函数 r ( s , a ) r(s, a) r(s,a) 表示。

    策略定义为给定状态下动作的函数 a = π ( s ) a = \pi(s) a=π(s)或者条件概率分布 P ( a ∣ s ) P(a | s) P(as)。给定一个策略 π \pi π,智能系统与环境互动的行为就已确定(或者是确定性的或者是随机性的)。

    价值函数(value function)或状态价值函数(state value function)定义为策略 π \pi π 从某一个状态 s s s 开始的长期累积奖励的数学期望:

U π ( s ) = E π [ r t + 1 + r t + 2 + r t + 3 + … ∣ s t = s ] U^\pi(s) = \mathbb{E}^\pi [r_{t+1} + r_{t+2} + r_{t+3} + \ldots | s_t = s] Uπ(s)=Eπ[rt+1+rt+2+rt+3+st=s]

动作价值函数(action value function)定义为策略 π \pi π 的从某一个状态 s s s 和动作 a a a 开始的长期累积奖励的数学期望:

q π ( s , a ) = E π [ r t + 1 + r t + 2 + r t + 3 + … ∣ s t = s , a t = a ] q^\pi(s, a) = \mathbb{E}^\pi [r_{t+1} + r_{t+2} + r_{t+3} + \ldots | s_t = s, a_t = a] qπ(s,a)=Eπ[rt+1+rt+2+rt+3+st=s,at=a]

强化学习的目标就是在所有可能的策略中选出价值函数最大的策略 π ∗ \pi^* π,而在实际学习中往往从具体的策略出发,不断优化已有策略。这重~表示未来的奖励会有衰减。

强化学习方法中有基于策略的(policy-based)、基于价值的(value-based),这两者属于无模型的(model-free)方法,还有有模型的(model-based)方法。

有模型的方法试图直接学习马尔可夫决策过程的模型,包括转移概率函数 P ( s t + 1 ∣ s t , a t ) P(s_{t+1} | s_t, a_t) P(st+1st,at)和奖励函数 r ( s , a ) r(s, a) r(s,a)。这样可以通过模型对环境的反馈进行预测,求出价值函数最大的策略。

无模型的、基于策略的方法不直接学习模型,而是试图求解最优策略 π ∗ \pi^* π,表示为函数 a = π ∗ ( s ) a = \pi^*(s) a=π(s) 或者条件概率分布 P ∗ ( a ∣ s ) P^*(a | s) P(as),这样也能达到在环境中做出最优决策的目的。学习通常从一个具体策略开始,通过搜索更优的策略进行。

无模型的、基于价值的方法也不直接学习模型,而是试图求解最优价值函数,特别是最优动作价值函数 q ∗ ( s , a ) q^*(s, a) q(s,a)。这样可以间接地学到最优策略,根据该策略在给定的状态下做出相应的动作。学习通常从一个具体价值函数开始,通过搜索更优的价值函数进行。

  1. 半监督学习与主动学习

    半监督学习(semi-supervised learning)是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据、大量未标注数据,因为标注数据的构建往往需要人工,成本较高,未标注数据的收集不需太多成本。半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。

    主动学习(active learning)是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。通常的监督学习使用给定的标注数据,往往是随机得到的,可以看作是“被动学习”,主动学习的目标是找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。

    半监督学习和主动学习更接近监督学习。

1.2.2 按模型分类

统计学习或机器学习方法可以根据其模型的种类进行分类。

  1. 概率模型与非概率模型

    统计学习的模型可以分为概率模型(probabilistic model)和非概率模型(non-probabilistic model)或者确定性模型(deterministic model)。在监督学习中,概率模型取条件概率分布形式中,概率模型取条件概率分布形式 P ( Y ∣ X ) P(Y|X) P(YX),非概率模型取函数形式 Y = f ( X ) Y = f(X) Y=f(X),其中 X X X 是输入, Y Y Y 是输出。在无监督学习中,概率模型取条件概率分布形式 P ( Z ∣ X ) P(Z|X) P(ZX) P ( X ∣ Z ) P(X|Z) P(XZ),非概率模型取函数形式 Z = g ( X ) Z = g(X) Z=g(X),其中 X X X 是输入, Z Z Z 是输出。在监督学习中,概率模型是生成模型,非概率模型是判别模型。

    本书介绍的决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型是概率模型。感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析,以及神经网络是非概率模型。逻辑斯谛回归既可以看作是概率模型,又可以看作是非概率模型。

    条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX) 和函数 Y = f ( X ) Y = f(X) Y=f(X) 可以相互转化(条件概率分布 P ( Z ∣ X ) P(Z|X) P(ZX) 和函数 Z = g ( X ) Z = g(X) Z=g(X) 同样可以)。具体地,条件概率分布最大化后得到函数,函数归一化后得到条件概率分布。所以,概率模型和非概率模型的区别不在于输入与输出之间的映射关系,而在于模型的内在结构。概率模型一定可以表示为联合概率分布的形式,其中的变量表示输入、输出、隐变量甚至参数。而针对非概率模型则不一定存在这样的联合概率分布。

    概率模型的代表是概率图模型(probabilistic graphical model),概率图模型是联合概率分布由有向图或者无向图表示的概率模型,而联合概率分布可以根据图的结构分解为因子乘积的形式。贝叶斯网络、马尔可夫随机场、条件随机场是概率图模型。无论模型如何复杂,均可以用最基本的加法规则和乘法规则(参照图1.4)进行概率推理。

在这里插入图片描述

  1. 线性模型与非线性模型

    统计学习模型,特别是非概率模型,可以分为线性模型(linear model)和非线性模型(non-linear model)。如果函数 Y = f ( X ) Y = f(X) Y=f(X) Z = g ( X ) Z = g(X) Z=g(X) 是线性函数,则称模型是线性模型,否则称模型是非线性模型。

    本书介绍的感知机、线性支持向量机、近邻、k均值、潜在语义分析是线性模型。核函数支持向量机、AdaBoost、神经网络是非线性模型。

    深度学习(deep learning)实际是复杂神经网络的学习,也就是复杂的非线性模型的学习。

  2. 参数化模型与非参数化模型

    统计学习模型可以分为参数化模型(parametric model)和非参数化模型(non-parametric model)。参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。

    本书介绍的感知机、朴素贝叶斯、逻辑斯谛回归、均值、高斯混合模型是参数化模型。决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配是非参数化模型。

    参数化模型适合问题简单的情况,现实中问题往往比较复杂,非参数化模型更加有效。

1.2.3 按算法分类

统计学习根据算法,可以分为在线学习(online learning)与批量学习(batch learning)。在线学习是指每次接受一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习。与之对应,批量学习一次接受所有数据,学习模型,之后进行预测。有些实际应用的场景要求学习必须是在线的。比如,数据依次达到无法存储,系统需要及时做出处理;数据规模很大,不可能一次处理所有数据;数据的模式随时间动态变化,需要算法快速适应新的模式(不满足独立同分布假设)。

在线学习可以是监督学习,也可以是无监督学习,强化学习本身就拥有在线学习的特点。以下只考虑在线的监督学习。

学习和预测在一个系统,每次接受一个输入 x x x,用已有模型给出预测 y ^ \hat{y} y^,之后得到相应的反馈,即该输入对应的输出 y y y;系统用损失函数计算两者的差异,更新模型;并不断重复以上操作。见图1.5。
在这里插入图片描述

利用随机梯度下降的感知机学习算法就是在线学习算法。

在线学习通常比批量学习更难,很难学到预测准确率更高的模型,因为每次模型更新中,可利用的数据有限。

1.2.4 按技巧分类

统计学习方法可以根据其使用的技巧进行分类。

  1. 贝叶斯学习

    贝叶斯学习(Bayesian learning),又称为贝叶斯推理(Bayesian inference),是统计学、机器学习中重要的方法。其主要想法是,在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测。将模型、未观测要素及其参数用变量表示,使用模型的先验分布是贝叶斯学习的特点。贝叶斯学习中也使用基本概率公式(图1.4)。

    本书介绍的朴素贝叶斯、潜在狄利克雷分配的学习属于贝叶斯学习。

    假设随机变量 D D D表示数据,随机变量 θ \theta θ 表示模型参数。根据贝叶斯定理,可以用以下公式计算后验概率 P ( θ ∣ D ) P(\theta | D) P(θD)

P ( θ ∣ D ) = P ( θ ) P ( D ∣ θ ) P ( D ) P(\theta | D) = \frac{P(\theta)P(D | \theta)}{P(D)} P(θD)=P(D)P(θ)P(Dθ)

其中 P ( θ ) P(\theta) P(θ) 是先验概率, P ( D ) P(D) P(D) 是似然函数。

模型估计时,估计整个后验概率分布 P ( θ ∣ D ) P(\theta | D) P(θD)。如果需要给出一个模型,通常取后验概率最大的模型。

预测时,计算数据对后验概率分布的期望值:

P ( a ∣ D ) = ∫ P ( a ∣ θ , D ) P ( θ ∣ D ) d θ P(a | D) = \int P(a | \theta, D)P(\theta | D)d\theta P(aD)=P(aθ,D)P(θD)dθ

其中 a a a 是新样本。

贝叶斯估计与极大似然估计在思想上有很大的不同,代表着统计学中频率学派和贝叶斯学派对统计的不同认识。其实,可以简单地把两者联系起来,假设先验分布是均匀分布,取后验概率最大,就能从贝叶斯估计得到极大似然估计。图1.6对贝叶斯估计和极大似然估计进行比较。
在这里插入图片描述

  1. 核方法

    核方法(kernel method)是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。有一些线性模型的学习方法基于相似度计算,更具体地,向量内积计算。核方法可以把它们扩展到非线性模型的学习,使其应用范围更广泛。

    本书介绍的核函数支持向量机,以及核PCA、核k均值属于核方法。

    把线性模型扩展到非线性模型,直接的做法是显式地定义从输入空间(低维空间)到特征空间(高维空间)的映射,在特征空间中进行内积计算。比如,支持向量机,把输入空间的线性不可分问题转化为特征空间的线性可分问题,如图1.7所示。核方法的技巧在于不显式地定义这个映射,而是直接定义核函数,即映射之后在特征空间的内积。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值