倒排索引是翻译错误?到底是谁在甩锅!

点击上方“业余草”,选择“置顶公众号”

第一时间获取技术干货和业界资讯!

640?wx_fmt=png

昨天,很多买了 Elasticsearch 的网友,在群里问:“Elasticsearch 中的索引为什么叫倒排索引?很难理解!

这一问,立马引起了很多人的注意,包含很多没关注过倒排索引的人。今天我们一起来看看,为什么叫倒排索引?

有倒排就有正排。其中正排索引是这样的,在一篇文章中,我们去找某些关键字,这叫正排索引。

反过来,根据关键字去找某一篇文章,就叫做倒排索引。

倒排索引,英文名叫:Inverted index。也常被称为反向索引、置入档案或反向档案,翻译成倒排索引,完全是一种翻译“错误”。只不过最初翻译的人,可能是相当正排序来翻译的,并不是根据字面意思来翻译的,随着大家都叫习惯了之后,倒排索引就流传开来了。

640?wx_fmt=jpeg

之所以不好理解,完全是被最开始翻译的人带坑里了。当然,作为第一个翻译者承受的压力也是巨大的。但是我们的思维完全不要局限于倒排索引的这个“倒”字。

如果说,A—Z 算是正排序的话,倒排序应该是 Z—A 吧。但其实 Elasticsearch 并不是这样的!所以,我个人更喜欢于把它翻译成反向索引。

640

比如,我现在有一个类似上面的文档。文档内容中的词,我们忽略。那么,现在我们来模仿着创建一个倒排索引列表。

640

实际代码中,可以根据不同的分词插件和实现代码分出不同的词。比如,业余草,在不同的分词组建下,可能被分为:“业余,草”两个词,公众号也可能被分为“公众,号”。所以,对于我上面具体的分词是否恰当,大家不要太过于纠结!

640?wx_fmt=png

有了这个分词之后,就相当于建立了倒排索引(反向索引)。那么我们就可以根据关键词来搜索出对应的文档了。

比如,当我搜索“业余草”关键词的时候,1、2、3 这三篇文章就会被搜索出来。这和我们在文章中搜索关键词,通过关键词来搜索文章,完全是一种反向思维。所以说是反向索引更为合适,如果你硬要死搬硬套倒排,那就不好走出思维陷阱了。

总之,你这样理解就好了:

  • 正排:文档——>关键词

  • 倒排:关键词——>文档

以上,希望能够帮助大家在学习 Elasticsearch 时少走一些弯路。至于是否是翻译错误,那都是历史原因,一切请向前看。一起精进,请加微信号:xttblog。

640

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

业余草

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值