数学之美之余弦定理与新闻分类

本文介绍了如何利用余弦定理对新闻进行分类。通过计算文章中实词的TF-IDF值转化为向量,然后通过比较两篇文章向量的夹角余弦值来判断相似度,实现新闻的自动分类。
摘要由CSDN通过智能技术生成

数学之美之余弦定理与新闻分类


By 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。


在上一篇博客中,我们记录了吴军老师介绍的TF-IDF算法,这节里,我们将介绍如何使用余弦定理对新闻进行分类。

有了TF-IDF算法,我们知道一篇文章或网页与某些内容或关键字之间的相关联程度,但是,有的时候,我们还想知道,某两篇文章是不是讲的是同一个主题,同一种内容。比如,我们想知道两篇文章是否都是金融类文章或者都是医学类文章。要知道,能不能确定两篇文章是否相似,对于使用计算机进行某些信息分类,内容聚合有着重要的意义。

不难想象,某些类别的文章中的某些实词的频率出现的概率比该类别以外的文章出现的概率大,我们可以利用这种特征对文章进行分类。

首先,我们针对一篇文章中所有实词计算出它们的TF-IDF值。然后,把这些值对应实词在词汇表中的位置进行排列,就能得到一个向量。比如,词汇表中有64000个词,其编号和词如下图:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值