词项字典获取相关操作:文档单元选择、字符序列生成、词条化、去除停用词、词项归一化、词干还原和词形归并。
词项词典获取:
1. 文档单元选择:存在索引粒度的问题,这里存在一个正确率和召回率的权衡问题,如果索引粒度太小,那么由于词项散布在多个细粒度文档中,我们就很可能错过那些重要的段落,也就是说此时正确率高二召回率低;反之,如果索引粒度太大,我们就很可能找到很多不相关的匹配结果,及正确率低而召回率高。
2. 字符序列生成:对于纯文本文件,首先由判断出文档的编码方式(ASCLL 、UTF-8等编码),然后就可以将字节流转换为字符流;对于二进制文件,首先应该判断文档的格式,即是.doc文档还是.zip文档或者是其他格式的文档,然后采用合适的编码转换方式还原出字符序列。
3. 词条化:词条化是将字符序列拆分成一系列子序列的过程,其中每一个子序列称为一个词条,此过程中也包括剔除一些特殊字符,如标点符号等,词条类是相同词条构成的集合,一个词项指的是在信息检索系统词典中所包含的某个可能经过归一化处理的词条类。词条化过程中存在很多棘手的问题,比如说对英文单词来说,如撇号既可以代表所有关系也可代表缩写;词条化过程与语言本身密切相关;特定领域有一些特定的词条需要被识别成词项;连字符‘-’存在多种不同的用法;识别短语等。