中文分词和二元分词综合对比

最新推荐文章于 2021-03-20 04:58:06 发布

贾诩是也

最新推荐文章于 2021-03-20 04:58:06 发布

阅读量1.2k

点赞数

分类专栏： Search technology

26 篇文章 0 订阅

订阅专栏

为了测试中文分词和二元分词的差异，现将初步的测试数据做了对比。关于二元分词可以参考车东先生的相关文章。

采用中文分词每1M产生1.55M的索引文件，膨胀率1.55；每1M用时大约10秒；采用二元分词每1M产生2.21M的索引文件，膨胀率2.21；每1M用时大约7秒；

从搜索结果来看，两者可以大致相同数量的搜索结果（显示结果根据相关度排列顺序不同）。

对文本进行中文分词的目的是要提高文档检索的相关性，由于相关性的算法（如下图）涉及到很多因素，所以对二元切分和中文分词切分显示结果到底谁更相关（人理解的意义相关？），还无法得出结论。

相关度算法：

score(q,d) =	Σ	tf(t in d) * idf(t) * getBoost(t.field in d) * lengthNorm(t.field in d)	* coord(q,d) * queryNorm(q)
	t in q

但有一点可以肯定，采用中文分词多花的解析中文时间可以带来丰厚的回报：索引文件和Term数量的大大减少。

可参考本文最后表格的图片对比。图中的数据是出现频率第100至120个Term情况，二元分词产生了大量的没有意义的Term。

关注

专栏目录