译者按: 吴恩达和迈克尔乔丹的经典合作之一,是当年吴恩达在乔丹门下读博时发表的,分类问题是机器学习最典型的问题,而朴素贝叶斯和逻辑回归又是最基础最常用的分类算法,两位大神对此进行了深入精到的分析,对机器学习和AI的爱好者来说不可错过
作者:
Andrew Y. Ng(吴恩达) , Michael I. Jordan(迈克尔一乔丹)
计算机科学和统计系
加州大学伯克利分校
摘要
我们比较判别式和生成式学习,以logistic回归和朴素贝叶斯为代表。我们表明,与广泛持有的观点(判别式分类器几乎总是被优先考虑的)相反,通常会有两种不同的性能体系,即训练集大小增加,其中每个算法效果更好。这源于观察,在反复实验中证实,尽管判别式学习具有较低的渐近误差,但生成式分类器也可以更快地接近其(较高)渐近性误差。
一、简介
生成分类器学习输入x和标签y的联合概率p(x,y)的模型,并通过使用贝叶斯规则来计算p(ylx),然后选择最可能的标签y来进行预测。 判别分类器直接对后验p(ylx)建模,或者从输入x学习一个直接映射到类标签。 使用判别式而不是生成性分类器有几个令人信服的原因,其中一个由Vapnik简洁地阐述[6],即“应该直接解决[分类]问题,并且不会解决更普遍的问题作为中间步骤 [例如 作为建模p(xly)]。“ 事实上,抛开计算问题和处理缺失数据等问题,目前的共识似乎是,判别式分类几乎总是被优先于生成性分类。
另一个流行的民间智慧是需要的例子数量,拟合一个模型通常在模型的自由参数数量上大致是线性的。这对于VC的“众多”模型的观察具有理论基础,维数大致是线性的或者至多是参数数量中的一些低阶多项式(参见例如[1,3]),并且已知在VC维中判别性设置中的样本复杂度是线性的[6]。
在本文中,我们从经验和理论上研究这些信念的真实程度。 概率模型p(x,y)的一个参数族可以适合于优化输入和标签的联合似然,或者适合于优化条件似然p(ylx),或者甚至适合于最小化0-1训练 通过对p(ylx)进行阈值处理得到的误差进行预测。 给定根据第一准则的分类器hGen拟合,并且根据第二或第三准则(使用相同的参数族模型)拟合模型hDis,我们称hGen和hD为生成 - 区分对。 例如,如果p(xly)是高斯的且p(y)是多项式的,则相应的生成判别对是正态判别分析和逻辑回归。 类似地,对于离散输入的情况,众所周知,朴素贝叶斯分类器和逻辑回归形成了一个生成 - 区分对[4,5]。
为了比较生成性和判别式学习,似乎很自然地关注这样的对。在本文中,我们考虑朴素贝叶斯模型(用于离散和连续输入)及其区分模拟,逻辑回归/线性分类,并且显示:(a)生成模型的确具有更高的渐近误差训练样例变得很大),但是(b)生成模型也可能比判别模型更快地逼近其渐近误差 - 可能有许多训练样例,它们的数量只是对数而不是线性的参数。这表明,并且我们的实证结果强烈支持 - 随着训练样本数量的增加,可能会有两种截然不同的表现方式,第一种方式是生成模型已经接近其渐近误差,因此表现更好,第二种情况是判别模型接近其较低的渐近误差并做得更好。
二、预演
我们考虑一个二元分类任务,并从离散数据的情况开始。假设X = {O,l} n是n维输入空间,我们假设二进制
简单的输入(泛化没有困难)。 让输出标签为Y = {T,F},并且在X X Y上存在一个联合分布V. 绘制了训练集S = {x(i),y(i)}〜1。 生成贝叶斯分类器使用S来计算概率的估计值p(xiIY)和p(y)p(xi IY)和p(y),如下所示:
(对于p(y = b),也是类似的),其中#s { - }计算出现的次数事件在训练集S中。这里,设定l =°对应于采用经验估计概率,并且l更传统地被设置为正值,例如1,这对应于使用概率的拉普拉斯平滑。 为了对测试示例x进行分类,当且仅当以下数量为正数时,朴素贝叶斯分类器hGen:X r- + Y预测hGen(x)= T:
在连续输入的情况下,除了我们现在假设X = [O,l] n并且设p(xilY = b&