看了视频也看了笔记,写下自己困惑的点以及后来想明白的原因。
(1)朴素贝叶斯的前提假设:在分类问题上,假设各个特征之间出现的概率相互独立。在老师的邮件过滤问题上,如下式所示:
概率相互独立,自然好理解。但我一开始不清楚这个xi的含义。当我将它看成是特征时就好办了,一个邮件看成是X,X由多个word组成,那么每一个不同的word就是其中的特征xi。
(2)通过最大似然估计得出来的参数是用来干嘛的?如何使用?
参数的最大似然估计为:
这个含义是清楚的第一个表示的特征xj出现在垃圾邮件中的比例,第二个表示的是xj出现在正常邮件中的比例。然后,老师就说,对于新的一个邮件,通过贝叶斯公式就可以判断出这个新邮件是否是垃圾邮件。这个说实话,可能是个人理解能力问题,我还真的一时没想清楚为什么。我们都知道,贝叶斯公式为:
那么所谓的使用一大堆贴有标签的邮件来训练所得到的最大似然估计中的各个参数是用来干嘛的?
后来想明白了,新的邮件中有很多word,将它们作为新邮件的特征xi,那实际上通过训练过后,每个p(xi | y=1)都是已经求出来的,就是最大似然估计求出来的参数中的第一项啊。而朴素贝叶斯的假设也正在此时可以派上用场,p(X | y=1)=p(x1 | y=1)p(x2 | y=1)...p(xi | y=1)。原来如此。这样想下去之后也就明白,给出一个新邮件就可以得出判断了。
之前学习过贝叶斯,但基本没有所谓的训练样本的概念,因为基本上这些概率值都是给出来了的,这次算是理解地更加深入一点了。
这是个根本不值一提的小问题,但是没有想清楚之前,它确实困扰着我。写下来无非是加强自身理解罢了。