数学之美之余弦定理与新闻分类
By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。
在上一篇博客中,我们记录了吴军老师介绍的TF-IDF算法,这节里,我们将介绍如何使用余弦定理对新闻进行分类。
有了TF-IDF算法,我们知道一篇文章或网页与某些内容或关键字之间的相关联程度,但是,有的时候,我们还想知道,某两篇文章是不是讲的是同一个主题,同一种内容。比如,我们想知道两篇文章是否都是金融类文章或者都是医学类文章。要知道,能不能确定两篇文章是否相似,对于使用计算机进行某些信息分类,内容聚合有着重要的意义。
不难想象,某些类别的文章中的某些实词的频率出现的概率比该类别以外的文章出现的概率大,我们可以利用这种特征对文章进行分类。
首先,我们针对一篇文章中所有实词计算出它们的TF-IDF值。然后,把这些值对应实词在词汇表中的位置进行排列,就能得到一个向量。比如,词汇表中有64000个词,其编号和词如下图: