**
技术交流qq群: 659201069
**
注:
此文档基于sphinx及mmseg3代码整理,内容可能有疏漏,以后逐步完善
术语:
待分字符串:中华人民共和国
Chunk:中华,人民,共和国,为一条chunk(词组,item的组合)
Item:中华,为一个item
Sphinx分词器类包括四种:单字节字符集分词类器CSphTokenizer_SBCS,UTF-8字符集分词器类,N-gram,中文分词类CSphTokenizer_UTF8MMSeg,使用哪种分词器可通过配置文件指定。分词器继承关系、成员关系如下图:
IsphTokenizer是所有分词器类的基类,通过多态调用实现对不同分词器的支持。对其主要成员说明如下:
属性成员
-
m_tLC:CsphLowercaser
如果是ASCII码转换为小写方式。如果是汉字把汉字的unicode码转换为utf_8编码。 -
m_tSettings: CsphTokenizerSettings
分词器设置类,在进行分词前先调用此类进行设置,主要成员如下 -
m_iType:int 设置分词器类型,由配置文件读入,例如:zh_cn.utf-8
-
m_sCaseFolding: CsphString字符表和大小写转换规则,UTF8时值是 0…9, A…Z->a…z, _, a…z,
U+410…U+42F->U+430…U+44F, U+430…U+44F, U+401->U+451, U+451 -
m_iMinWordLen:int 最小索引长度,默认为1
-
m_sSynonymsFile: CsphString