也就是说搜索的目录分类机制仍然存在,但是不直接面对最终用户,而是面对搜索引擎,即根据文档内容自动分类。
根据文档内容自动分类的方法有很多种,本文介绍一下Term频率计算方法。
向量空间模型的基本思想是把文档看成一个根据其中字词出现频率权重的向量.为了减少信息的噪音,这里面的字词需要经过如下步骤的处理:
1、对文档进行分词,取出文档中包含的所有字词(term);
2、消除掉没有意义的字词(term),比如汉语的:是,的 等;
3、统计计算每个字词(term)出现的频率;
4、根据需要过滤掉出现频率高的那部分词(term)和出现频率低的那部分词(term)(类似综艺节目中去掉最高分和最低分的做法);
5、处理到这步后,我们假设一共有w个最终的字词,然后对这些字词分别标注一个唯一的标记。
处理到这一步,后面的步骤就依算法的不同而各异了。但有一个共同的特点,就是必须依赖字词(term)的权重。字词的权重直接依赖于他们出现的频率。因为我们要分析的是成千上万的文档,所以字词在一个文档中出现的频率并不能说明问题,因此在考虑字词权重的时候也要考虑多个文档的因素。
现在我们抽象的考虑一下:
1、假设需要处理的文档是一个D对象的集合;
2、分类就是一个模糊的A描述,A就是一个D的子集;
3、我们分类的难点就是区分D对象更加倾向于那个子集A(分类)。
所以这样看来决定字词权重的应该包括下面3个部分:
1、字词本身出现的频率因素,确定字词在当前文档中的重要程度;
2、文档长度的因素;
3、全部文档包含Term出现的频率,确定字词在全部文档中的重要程度;
如果能比较准确的得到字词的频率,再加上统计的方法,对文档归类就应该更加准确吧。