辨别式与生成式分类器的区别：逻辑回归和朴素贝叶斯的比较

最新推荐文章于 2023-12-29 01:45:53 发布

肥猫64

最新推荐文章于 2023-12-29 01:45:53 发布

阅读量1.4k

点赞数 1

分类专栏： AI论文中文翻译文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/weixin_46403555/article/details/104628095

版权

本文深入比较了判别式和生成式学习，以逻辑回归与朴素贝叶斯为例。研究表明，尽管判别式分类器在渐近误差上更低，但生成式分类器可能在训练样本数量增加时更快地接近其较高的渐近误差，表现出两种不同的性能趋势。实验结果显示，随着训练样本数量的增长，生成朴素贝叶斯起初表现更优，但逻辑回归最终可能超越。

摘要由CSDN通过智能技术生成

译者按：吴恩达和迈克尔乔丹的经典合作之一，是当年吴恩达在乔丹门下读博时发表的，分类问题是机器学习最典型的问题，而朴素贝叶斯和逻辑回归又是最基础最常用的分类算法，两位大神对此进行了深入精到的分析，对机器学习和AI的爱好者来说不可错过

作者：

Andrew Y. Ng（吴恩达）， Michael I. Jordan（迈克尔一乔丹）

计算机科学和统计系

加州大学伯克利分校

摘要

我们比较判别式和生成式学习，以logistic回归和朴素贝叶斯为代表。我们表明，与广泛持有的观点（判别式分类器几乎总是被优先考虑的）相反，通常会有两种不同的性能体系，即训练集大小增加，其中每个算法效果更好。这源于观察，在反复实验中证实，尽管判别式学习具有较低的渐近误差，但生成式分类器也可以更快地接近其（较高）渐近性误差。

一、简介

生成分类器学习输入x和标签y的联合概率p（x，y）的模型，并通过使用贝叶斯规则来计算p（ylx），然后选择最可能的标签y来进行预测。判别分类器直接对后验p（ylx）建模，或者从输入x学习一个直接映射到类标签。使用判别式而不是生成性分类器有几个令人信服的原因，其中一个由Vapnik简洁地阐述[6]，即“应该直接解决[分类]问题，并且不会解决更普遍的问题作为中间步骤 [例如作为建模p（xly）]。“ 事实上，抛开计算问题和处理缺失数据等问题，目前的共识似乎是，判别式分类几乎总是被优先于生成性分类。

另一个流行的民间智慧是需要的例子数量，拟合一个模型通常在模型的自由参数数量上大致是线性的。这对于VC的“众多”模型的观察具有理论基础，维数大致是线性的或者至多是参数数量中的一些低阶多项式（参见例如[1,3]），并且已知在VC维中判别性设置中的样本复杂度是线性的[6]。

在本文中，我们从经验和理论上研究这些信念的真实程度。概率模型p（x，y）的一个参数族可以适合于优化输入和标签的联合似然，或者适合于优化条件似然p（ylx），或者甚至适合于最小化0-1训练通过对p（ylx）进行阈值处理得到的误差进行预测。给定根据第一准则的分类器hGen拟合，并且根据第二或第三准则（使用相同的参数族模型）拟合模型hDis，我们称hGen和hD为生成 - 区分对。例如，如果p（xly）是高斯的且p（y）是多项式的，则相应的生成判别对是正态判别分析和逻辑回归。类似地，对于离散输入的情况，众所周知，朴素贝叶斯分类器和逻辑回归形成了一个生成 - 区分对[4,5]。

为了比较生成性和判别式学习，似乎很自然地关注这样的对。在本文中，我们考虑朴素贝叶斯模型（用于离散和连续输入）及其区分模拟，逻辑回归/线性分类，并且显示：（a）生成模型的确具有更高的渐近误差训练样例变得很大），但是（b）生成模型也可能比判别模型更快地逼近其渐近误差 - 可能有许多训练样例，它们的数量只是对数而不是线性的参数。这表明，并且我们的实证结果强烈支持 - 随着训练样本数量的增加，可能会有两种截然不同的表现方式，第一种方式是生成模型已经接近其渐近误差，因此表现更好，第二种情况是判别模型接近其较低的渐近误差并做得更好。

二、预演

我们考虑一个二元分类任务，并从离散数据的情况开始。假设X = {O，l} n是n维输入空间，我们假设二进制

简单的输入（泛化没有困难）。让输出标签为Y = {T，F}，并且在X X Y上存在一个联合分布V. 绘制了训练集S = {x（i），y（i）}〜1。生成贝叶斯分类器使用S来计算概率的估计值p（xiIY）和p（y）p（xi IY）和p（y），如下所示：

（对于p（y = b），也是类似的），其中#s { - }计算出现的次数事件在训练集S中。这里，设定l =°对应于采用经验估计概率，并且l更传统地被设置为正值，例如1，这对应于使用概率的拉普拉斯平滑。为了对测试示例x进行分类，当且仅当以下数量为正数时，朴素贝叶斯分类器hGen：X r- + Y预测hGen（x）= T：