高性能搜索引擎sphinx源码解析之中文分词和mmseg

最新推荐文章于 2024-03-29 14:32:58 发布

阿童木-atom

最新推荐文章于 2024-03-29 14:32:58 发布

阅读量1.6w

点赞数 1

分类专栏：搜索技术系统架构大数据文章标签： sphinx 中文分词 mmseg

本文链接：https://blog.csdn.net/zhaojianting/article/details/78280955

版权

技术交流qq群： 659201069

**
注：

此文档基于sphinx及mmseg3代码整理，内容可能有疏漏，以后逐步完善

术语：

待分字符串：中华人民共和国
Chunk:中华，人民，共和国,为一条chunk(词组，item的组合)
Item:中华,为一个item
Sphinx分词器类包括四种：单字节字符集分词类器CSphTokenizer_SBCS，UTF-8字符集分词器类，N-gram，中文分词类CSphTokenizer_UTF8MMSeg，使用哪种分词器可通过配置文件指定。分词器继承关系、成员关系如下图：
这里写图片描述

IsphTokenizer是所有分词器类的基类，通过多态调用实现对不同分词器的支持。对其主要成员说明如下:

属性成员

m_tLC：CsphLowercaser
如果是ASCII码转换为小写方式。如果是汉字把汉字的unicode码转换为utf_8编码。
m_tSettings: CsphTokenizerSettings
分词器设置类,在进行分词前先调用此类进行设置，主要成员如下
m_iType：int 设置分词器类型，由配置文件读入,例如：zh_cn.utf-8
m_sCaseFolding: CsphString字符表和大小写转换规则,UTF8时值是 0…9, A…Z->a…z, _, a…z,
U+410…U+42F->U+430…U+44F, U+430…U+44F, U+401->U+451, U+451
m_iMinWordLen:int 最小索引长度，默认为1
m_sSynonymsFile: CsphString

最低0.47元/天解锁文章

阿童木-atom

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
高性能搜索引擎sphinx源码解析之中文分词和mmseg

注：此文档基于sphinx及mmseg3代码整理，内容可能有疏漏，以后逐步完善术语：待分字符串：中华人民共和国 Chunk:中华，人民，共和国,为一条chunk(词组，item的组合) Item:中华,为一个item Sphinx分词器类包括四种：单字节字符集分词类器CSphTokenizer_SBCS，UTF-8字符集分词器类，N-gram，中文分词类CSphTokenizer_UTF8MM
复制链接

扫一扫