whoosh4

最新推荐文章于 2018-01-24 16:51:12 发布

tianchi7

最新推荐文章于 2018-01-24 16:51:12 发布

阅读量213

点赞数

分类专栏： python+ir

本文链接：https://blog.csdn.net/yue1151180702/article/details/71773872

版权

python+ir 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

indexing and searching N-grams

适合为例如中文日文这种没有词间断的语言快速有效的索引。
NgramTokenizer 切分全部域为N-grams 适合中日韩文
NgramFilter 把独立的tokens切分成Ngram 作为分析管道的部分。适合词间断的语言

>>> ngt = NgramTokenizer(minsize=2, maxsize=4)
>>> [token.text for token in ngt(u"hi there")]
[u'hi', u'hi ', u'hi t',u'i ', u'i t', u'i th', u' t', u' th', u' the', u'th',
u'the', u'ther', u'he', u'her', u'here', u'er', u'ere', u're']

>>> my_analyzer = StandardAnalyzer() | NgramFilter(minsize=2, maxsize=4)
>>> [token.text for token in my_analyzer(u"rendering shaders")]
[u'ren', u'rend', u'end', u'ende', u'nde', u'nder', u'der', u'deri', u'eri',
u'erin', u'rin', u'ring', u'ing', u'sha', u'shad', u'had', u'hade', u'ade',
u'ader', u'der', u'ders', u'ers']