- 博客(2)
- 收藏
- 关注
原创 Elasticsearch中文分词之Thulac和IK
一、背景Elasticsearch(文中简称ES)通过Analyzer进行分词,可使用ES内置分词器,也可以自定义扩展。Analyzer是ES中专门处理分词的组件,它由三部分组成:Character Filters:针对原始文本处理。 Tokenizer:按照规则切分为单词。 Token Filter:将切分的单词进行加工,转为小写,删除stopwords,增加同义词等。图一:分词示例(应用 icu_analyzer 插件分词)ES有较多内置分词器,但是针对中文分词并不友好,中文分
2021-09-25 16:43:49
1032
原创 Mac OS下源码编译安装Nginx
概述Nginx是开源高性能轻量级Web、反向代理服务器,从诞生到应用快速发展。同类服务器包括:服务器 特点 Apache 优点:特性最全,运行速度快,性能稳定,扩展功能丰富 缺点:设计上以进程为基础结构,在多处理器环境下系统开销更大 方案:扩容时,通常增加服务器或扩充集群节点 Microsoft IIS 优点:同Windows Server结合,功能丰富,提供Gopher Server、FTP Server、Http Server、S
2021-09-20 10:27:00
1586
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人