这几天为Gimi Talk研究中文的分词,主要问题是要消除歧义的关键字,如何分割的问题。
参看了几篇文章,例句:长春市长春药店
1.查找所有有效词(起始位置和词长):
长春(0,2),长春市(0,3),市长(2,2),长春(3,2),春药(4,2),药店(5,2)
2.找出所有有效词可能的组合:
a.长春/市长/春药/店 登录词:3个 碎词:1个