文本分类——快速kNN设计实现

本文介绍了kNN分类模型的基本思想,并对比了普通kNN与快速kNN(F-kNN)的实现。F-kNN通过优化数据结构,减少无效运算,显著提高了文本分类的效率。实验结果显示,F-kNN在分类时间上比传统kNN降低了90%以上,展示了其在性能优化方面的优势。
摘要由CSDN通过智能技术生成

介绍

  文本分类——常见分类模型
  kNN分类模型的主要思想:通过给定一个未标注文档d,分类系统在训练集中查找与它距离最接近的k篇相邻(相似或相同)标注文档,然后根据这k篇邻近文档的分类标注来确定文档d的类别。

普通kNN实现

  一般常规的kNN计算新输入文档与训练集中样本之间的距离,都是新输入文档与每一训练集样本计算相似度。数据结构及计算过程示意图如下:

图 1 通用kNN相似度计算实现数据结构示意

   如图1所示,新输入文档将于已有训练样本的d1、d2、dm逐个计算相似度(Similarity)。一种颜色代表一次计算。
   由于文本具有词稀疏性(一篇文本一般仅含有几十到几百个词组,而词的总表中词的总数可以达到几十万。),一般按照上述方法实现kNN算法,很多词语的搜索过程都是无用的,即根本搜索不到匹配的词或不用搜索。例如:新输入文本的词组t5、t10与d1、d3、dm的计算都为0,无效运算。

快速kNN实现

   本篇对普通kNN算法做了一些改进,调整训练文本的数据结构,不是一次计算未标注文本与一篇训练集文本的相似度,而是一次计算未标注文本中一个词(或特征)与训练集每篇文本的该词(或特征)的相似度分量。这样可以较大降低词的搜索空间ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值