06 搜索引擎
zsd_31
这个作者很懒,什么都没留下…
展开
-
Elasticsearch创建索引和映射结构详解
前言这篇文章详细介绍了如何创建索引和某个类型的映射。下文中[address]指代elasticsearch服务器访问地址(http://localhost:9200)。1 创建索引1.1 简单创建语句curl -XPUT [address]/blog1.2 带参数的创建语句curl -XPUT [address]/blog/ -d '{ "settings":{ ...转载 2018-04-17 17:51:53 · 701 阅读 · 1 评论 -
Elasticsearch之中文分词器插件es-ik
前提什么是倒排索引?Elasticsearch之分词器的作用Elasticsearch之分词器的工作流程Elasticsearch之停用词Elasticsearch之中文分词器Elasticsearch之几个重要的分词器 elasticsearch官方默认的分词插件 1、elasticsearch官方默认的分词插件,对中文分词效果不理想。 比如,我现在,拿个具体实例来展现下,验证...转载 2018-04-17 20:34:16 · 2885 阅读 · 0 评论 -
Elasticsearch之几个重要的分词器
前提什么是倒排索引?Elasticsearch之分词器的作用Elasticsearch之分词器的工作流程Elasticsearch之停用词Elasticsearch之中文分词器 Elasticsearch的几个重要的分词器: 后续博客Elasticsearch之中文分词器插件es-ik...转载 2018-04-17 20:14:57 · 6331 阅读 · 0 评论 -
Elasticsearch之中文分词器
前提什么是倒排索引?Elasticsearch之分词器的作用Elasticsearch之分词器的工作流程Elasticsearch之停用词 Elasticsearch的中文分词器 1、单字分词: 如:“我们是中国人” 效果:“我”“们”“是”“中”“国”“人” 2、二分法分词:按两个字进行切分。 如:“我们是中国人”,效果:“我们”、“们是”、“是中”、“中国”、“国人”。...转载 2018-04-17 20:12:00 · 257 阅读 · 0 评论 -
Elasticsearch的停用词
前提什么是倒排索引?Elasticsearch之分词器的作用Elasticsearch之分词器的工作流程 Elasticsearch的停用词 1、有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响。 2、英文 a、an、the、of 3、中文 的、了、着、是 、标点符号等 4、文本经过分词之后,停用词通常被过滤掉,不会被进行索引。 5、在检索的时候,用户...转载 2018-04-17 20:09:46 · 2843 阅读 · 0 评论 -
Elasticsearch之分词器的工作流程
前提什么是倒排索引?Elasticsearch之分词器的作用 Elasticsearch的分词器的一般工作流程: 1、切分关键词 2、去除停用词 3、对于英文单词,把所有字母转为小写(搜索时不区分大小写) 后续博客Elasticsearch之停用词...转载 2018-04-17 20:06:56 · 395 阅读 · 0 评论 -
Elasticsearch之分词器的作用
前提什么是倒排索引? Analyzer(分词器)的作用是把一段文本中的词按一定规则进行切分。对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言,要用不同的分词器。(也就是说不同的分词器分词的规则是不同的!) 在创建索引时会用到分词器,在搜索时也会用到分词器,这两个地方要使用同一个分词器,否则可能会搜索不出结果。 后续博客Elast...转载 2018-04-17 20:04:49 · 1977 阅读 · 0 评论 -
什么是倒排索引?
见其名知其意,有倒排索引,对应肯定,有正向索引。 正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。 在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID)。例如“文档1”经过分词,提取了20个关键词,每个关键词都会记录它在文档中的出现次数和出现位置...转载 2018-04-17 19:57:55 · 11789 阅读 · 2 评论 -
ES索引存储原理
ES索引存储原理不变性写到磁盘的倒序索引是不变的:自从写到磁盘就再也不变。 这会有很多好处:不需要添加锁。不存在写操作,因此不存在多线程更改数据。提高读性能。一旦索引被内核的文件系统做了Cache,绝大多数的读操作会直接从内存而不需要经过磁盘。提升其他缓存(例如fiter cache)的性能。其他的缓存在该索引的生命周期内保持有效,减少磁盘I/O和计算消耗。当然,索引的不变性也有缺点。如果你想让新...转载 2018-04-17 17:55:05 · 1814 阅读 · 0 评论