【深入详解Elasticsearch】
文章平均质量分 92
1、深入浅出解读Elasticsearch基础知识、原理、核心插件安装等;
2、深入浅出解读Elasticsearch与mysql、oracle、MongoDB的实时同步(增、删、改、查操作)。
3、深入浅出讲解Elaststicsearch在开发中的实战应用等核心技术。
铭毅天下
《一本书讲透 Elasticsearch》作者,Elastic认证专家、Elastic中国官方合作培训讲师、阿里云MVP、Elastic中文社区2018年、2023年杰出贡献者、CSDN2013年、2016年博客征文特等奖得主、博客全网累计阅读1000万+、已带领国内外近200人+通过Elastic认证专家考试。
展开
-
干货 | Logstash Grok数据结构化ETL实战
0、题记日志分析是ELK起家的最核心业务场景之一。如果你正在使用Elastic Stack并且正尝试将自定义Logstash日志映射到Elasticsearch,那么这篇文章适合您。Logstash写入ES之前的中间数据处理过程一般叫做:数据ETL或者数据清洗。本文重点介绍数据清洗环节的非结构数据转化为结构化数据的——Grok实现。1、认知前提老生常谈,夯实基础认知。ELK Stac...原创 2019-07-13 13:15:06 · 7824 阅读 · 4 评论 -
Elastic认证考试,请先看这一篇!
题记Elastic认证考试已经推出一年多,国内已经陆续有不少小伙伴考过。经常有朋友留言,Elastic认证考试,考什么?难度大不大等。其实:官网都已经有更详细、更准确的描述,建议直接读官网。(尤其后续官网可能会有更新)本文仅对官网考点部分进行翻译、提炼、考点难度评定星级。注意:考试时,唯一可参阅官网文档:https://www.elastic.co/guide/index.html1、...原创 2019-07-07 22:25:15 · 27120 阅读 · 22 评论 -
如何做一次Elasticsearch技术分享?
0、问题引出经群讨论,建议从以下几个方面展开,大家有好的想法,也欢迎留言交流。1、可视化展示ELK效果如果条件允许:demo的内容是:通过logstash 同步日志或数据库(oracle、mysql)表的数据到 Elasticsearch,然后通过kibana进行可视化。1 通过Canvas对数据进行可视化布局与展现,可以实现非常酷炫的大屏展示效果2 展示实时数据的数据量。3 展...原创 2019-06-30 23:47:18 · 8149 阅读 · 0 评论 -
终于等到你,Elasticsearch7.X视频教程发布!
1、做搜索容易,做好搜索相当难。这是 Elastic 大佬 Wood 大叔在《熟练使用ES离做好搜索还差多远?》的回复。当时看到回复后,感觉振聋发聩。的确,经常在涉及检...转载 2019-06-24 22:43:33 · 16255 阅读 · 11 评论 -
Elasticsearch的ETL利器——Ingest节点
1、问题引出来自星球同学的提问:“Ingest node什么场景会遇到它? 一直没搜到它是在什么场景工作的?”的确我们比较关心集群的节点角色的划分。包括:集群应该几个节点?几个节点用于数据存储?要不要独立Master节点、协调节点?但是Ingest node的场景用的比较少。2、集群节点角色划分梳理之前的文章:刨根问底 | Elasticsearch 5.X集群多节点角色...原创 2019-06-22 23:03:21 · 26093 阅读 · 7 评论 -
实战 | ELK实现全量Elastic日报(2017-2019)多维度可视化分析
题记Elastic社区主席M大、Elastic源码解析书作者超哥都曾多次强调Elastic日报是非常好的学习资料,然后呢?Elastic日报自2017年7月30日发布第一篇文章,截止2019年6月6日,近10位责任编辑累计贡献了1653篇文章。日报分散在社区文章专区,全部看完至少需要翻页40次+(每页18条数据,还需要过滤掉非日报文章),检索相对不方便。能不能把Elastic日报爬取并导入...原创 2019-06-09 09:57:38 · 6777 阅读 · 0 评论 -
干货 | Elasticsearch基础但非常有用的功能之一:别名
0、题记本文是系列文章第一篇。介绍Elasticsearch的一些非常基础但实战开发确非常有用的技术点。了解这些技术点会帮助你设计更易于维护的数据索引,预先知道PB级大数据索引实战中的坑,提升工作效率。本文从别名分类、索引别名实践、索引别名的好处、索引别名常见问题及坑解读、字段别名实践一把五个方面进行详细解读。1、别名分类别名在Elasticsearch中有两种分类。1.1 索引别名。...原创 2019-06-02 20:59:42 · 17979 阅读 · 12 评论 -
干货 | Elasticsearch 7.1免费安全功能全景认知
0、背景2019年5月21日,Elastic官方发布消息: Elastic Stack 新版本6.8.0 和7.1.0的核心安全功能现免费提供。这意味着用户现在能够对网络流量进行加密、创建和管理用户、定义能够保护索引和集群级别访问权限的角色,并且使用 Spaces 为 Kibana提供全面保护。 免费提供的核心安全功能如下:1)TLS 功能。 可对通信进行加密;2)文件和原生 Real...原创 2019-05-26 00:42:34 · 14841 阅读 · 1 评论 -
干货 | Elasticsearch Top10 监控指标
0、监控Elasticsearch集群的重要性Elasticsearch具有通用性,可扩展性和实用性的特点,集群的基础架构必须满足如上特性。合理的集群架构能支撑其数据存储及并发响应需求。相反,不合理的集群基础架构和错误配置可能导致集群性能下降、集群无法响应甚至集群崩溃。适当地监视群集可以帮助您实时监控集群规模,并且可以有效地处理所有数据请求。本文我们将从五个不同的维度来看待集群,并从这些维度...原创 2019-05-12 00:02:29 · 15426 阅读 · 2 评论 -
logstash_output_kafka:Mysql同步Kafka深入详解
0、题记实际业务场景中,会遇到基础数据存在Mysql中,实时写入数据量比较大的情景。迁移至kafka是一种比较好的业务选型方案。而mysql写入kafka的选型方案有:方案一:logstash_output_kafka 插件。方案二:kafka_connector。方案三:debezium 插件。方案四:flume。方案五:其他类似方案。其中:debezium和flume是基于m...原创 2019-04-20 21:54:58 · 10248 阅读 · 1 评论 -
重磅 | Elasticsearch7.X学习路线图
1、为什么要梳理学习路线图?在关注Elastic 中文社区、QQ群、星球群的过程中,多多少少都会有一些基础问题冒出。而这些问题不复杂,多半都在官方文档中都有提及,稍稍复杂的在官方英文社区、中文社区都有过类似问题的讨论。基本上通过Google、bing都能直接或间接搜索到答案。那么问题是:为什么好多初学的朋友,找不到答案呢。观察和思考了很久。我认为最主要的问题在于,没有建立基础知识全貌的认知...原创 2019-04-30 23:34:20 · 18121 阅读 · 17 评论 -
Elasticsearch 7.0 正式发布,盘他!
Elastic{ON}北京分享了Elasticsearch7.0在Speed,Scale,Relevance等方面的很多新特性。比快更快,有传说中的那么牛逼吗?盘他!通过本文,你能了解到:Elasticsearch&Kibana 7.部署体验Elasticsearch7 革命性更新Elasticsearch 7升级注意事项Elasticsearch 版本更新太快了,学不动了,...原创 2019-04-14 00:16:46 · 13601 阅读 · 7 评论 -
Elasticsearch自定义分词,从一个问题说开去
1、问题抛出来自星友的一个真实业务场景问题:我现在的业务需求是这样的。有一个作者字段,比如是这样的Li,LeiLei;Han,MeiMei;还有一些是LeiLei Li...。现在要精确匹配。 我的想法是:用自定义分词通过分号分词。但是这样我检索Li,LeiLei那么LeiLei Li就不能搜索到,我希望的结果是LeiLei Li也被搜索到而且这种分词,Li,LeiLei不加逗号,也不能...原创 2019-04-05 22:25:34 · 10302 阅读 · 12 评论 -
干货 | Elasticsearch多表关联设计指南
0、题记Elasticsearch多表关联问题是讨论最多的问题之一,如:博客和评论的关系,用户和爱好的关系。多表关联通常指:1对多,或者多对多。本文以星球问题会出发点,引申出ES多表关联认知,分析了4种关联关系的适用场景、优点、缺点,希望对你有所启发,为你的多表关联方案选型、实战提供帮助。1、抛出问题1.1 星球典型问题1.2 社区典型问题1.3 QQ群典型问题关系型数据库...原创 2019-03-24 23:45:37 · 46343 阅读 · 47 评论 -
实战 | canal 实现Mysql到Elasticsearch实时增量同步
题记关系型数据库Mysql/Oracle增量同步Elasticsearch是持续关注的问题,也是社区、QQ群等讨论最多的问题之一。问题包含但不限于:1、Mysql如何同步到Elasticsearch?2、Logstash、kafka_connector、canal选型有什么不同,如何取舍?3、能实现同步增删改查吗? …本文给出答案。1、Canal同步1.1 canal官方已支持...原创 2019-03-16 16:42:23 · 33838 阅读 · 26 评论 -
干货 | Elasticsearch方案选型必须了解的10件事!
题记Elasticsearch 目前被广泛使用,也越来越受到欢迎。一些传统的行业甚至婚庆公司都已经在使用Elasticsearch。人们喜欢Elasticsearch,不单单因为它的典型特征:1)易于部署;2)无需额外的软件即可扩展到数百个节点;3)内置RESTful API,上手快;4)开源+更新快+社区相当活跃。更重要的是Elastic已经形成了包含Elasticsearch...原创 2019-03-09 22:57:51 · 8944 阅读 · 0 评论 -
干货 | Debezium实现Mysql到Elasticsearch高效实时同步
题记来自Elasticsearch中文社区的问题——MySQL中表无唯一递增字段,也无唯一递增时间字段,该怎么使用logstash实现MySQL实时增量导数据到es中?logstash和kafka_connector都仅支持基于自增id或者时间戳更新的方式增量同步数据。回到问题本身:如果库表里没有相关字段,该如何处理呢?本文给出相关探讨和解决方案。1、 binlog认知1.1 啥...原创 2019-02-23 22:04:58 · 19736 阅读 · 13 评论 -
干货 | Elasticsearch 6个不明显但很重要的注意事项
题记Elasticsearch是被Netflix,微软,eBay,Facebook等Top N 顶级公司使用的搜索引擎。它很容易使用,但从长远来看相对难掌握。在本文中,我们分享了在系统中使用Elasticsearch六个不太明显但非常值得了解的特性。1. Elastic StackElasticsearch最初是作为独立产品开发的。它的核心作用是提供可扩展的搜索引擎服务,它提供多种语言库AP...原创 2019-02-16 23:05:00 · 8942 阅读 · 3 评论 -
干货 | BAT等一线大厂 Elasticsearch面试题解读
题记git上发现了网友总结的Elasticsearch BAT大厂面试题。只有题目,部分有答案,但不全。 正好抽出一些时间一起梳理一下。既然是面试题,每个人都会有自己的结合业务场景的答案,没有非常标准的答案。欢迎大家留言拍砖指正。1、elasticsearch了解多少,说说你们公司es的集群架构,索引数据大小,分片有多少,以及一些调优手段 。面试官:想了解应聘者之前公司接触的ES使用...原创 2019-01-19 23:17:35 · 14690 阅读 · 6 评论 -
我的2018:用一年的时间写一份年终总结!
1、题记不觉中,已经连续写了五年年终总结了(2013,2014,2015,2016,2017)。最初写总结是因为报名参加了CSDN“我的2013年”博客征文大赛,侥幸得到评委的抬爱,拿了特等奖。奖项只代表过去,更多是鞭策未来能否言行如一。得到罗胖提出跨年演讲要做20年,那我索性年终总结写一辈子吧。差不多从读初中开始,每年都会写一些当下的思考和总结性的文章,从开始的流水账式的记录,到大学阶段的...原创 2018-12-30 23:01:37 · 15062 阅读 · 17 评论 -
你的Elasticsearch在“裸奔”吗?
题记安全事件频发,2018上半年的群友的讨论:http://www.safedog.cn/news.html?id=3212https://www.easyaq.com/news/1184405110.shtml安全隐患划重点:1、印度:没有设置Elasticsearch集群安全权限;2、婚庆网站:Elasticsearch服务器暴露到公网。3、群友:9200端口映射到外网。...原创 2019-01-12 09:41:15 · 11766 阅读 · 3 评论 -
干货 | Elasticsearch索引管理利器——Curator深入详解
1、痛点Elasticsearch集群管理中索引的管理非常重要。数据量少的时候,一个或者几个索引就能满足问题。但是一旦数据量每天几TB甚至几十TB的增长时,索引的生命周期管理显得尤为重要。痛点1:你是否遇到过磁盘不够,要删除几个月前甚至更早时间数据的情况?如果没有基于时间创建索引,单一索引借助delete_by_query结合时间戳,会越删磁盘空间越紧张,以至于对自己都产生了怀疑?痛...原创 2019-01-05 22:49:34 · 21906 阅读 · 4 评论 -
让Elasticsearch飞起来!——性能优化实践干货
0、题记Elasticsearch性能优化的最终目的:用户体验爽。关于爽的定义——著名产品人梁宁曾经说过“人在满足时候的状态叫做愉悦,人不被满足就会难受,就会开始寻求。如果这个人在寻求中,能立刻得到即时满足,这种感觉就是爽!”。Elasticsearch的爽点就是:快、准、全!关于Elasticsearch性能优化,阿里、腾讯、京东、携程、滴滴、58等都有过很多深入的实践总结,都是非常好的...原创 2018-12-19 23:01:39 · 21034 阅读 · 15 评论 -
Elasticsearch常见的5个错误及应对策略
网罗Elasticsearch最佳实践,实际应用场景中常见错误要预知和避免,以最大化提升集群性能。1、采用动态模板如果不定义Mapping,Elasticsearch会根据输入的数据,创建对应的Mapping,这看起来非常完美,但是Elasticsearch的动态Mapping并不总是精确的。动态Mapping对于入门很有用,但在某些时候您需要结合业务数据指定Mapping。举例1:5.x...原创 2018-11-18 19:10:19 · 14595 阅读 · 2 评论 -
Elasticsearch写入原理深入详解
1、题记:Elasticsearch写入流程,网上有视频、笔记等各种版本,本文结合最新官方文档进行重新梳理,节省大家的时间。思考如下几个问题?1、为什么Elasticsarch是近实时,而不是准实时?2、为什么文档的CRUD操作是实时的?3、为什么Elasticsearch能做到保证数据不丢失?4、Refresh、flush的作用是什么? 什么时候使用?5、Elasticsearc...原创 2018-12-02 21:00:00 · 19649 阅读 · 11 评论 -
干货 | 2018 Elastic 中国开发者大会笔记
0、写在前面Elastic 中国开发者大会2018,干货满满。已然成为Elastic技术爱好者的狂欢日。我的感触如下:1、Elastic各个产品线新特性大放异彩,Elastic早已不止是检索,已经成为一体化的完整数据处理堆栈,从数据摄入到分析展示、价值获取。功能更完善、更加简单、易用用、更可视化、更安全。2、Elastic XPack/SQL等付费功能会从大公司到小公司逐渐推广。3、随着...原创 2018-11-11 19:35:58 · 19497 阅读 · 1 评论 -
图解Elasticsearch之一——索引创建过程
0、引言这是国外培训ppt课程的节选内容。以下是我们的Core Elasticsearch:Operations课程中的一些很棒的幻灯片,它们有助于解释分片分配的概念。 我们建议您更全面地了解这一点,但我会在此提供我们培训的概述:分片分配是将分片分配给节点的过程。 这可能发生在初始恢复,副本分配,重新平衡或添加或删除节点期间。 大多数时候,你不需要考虑它,这项工作是由Elasticsearc...原创 2018-11-04 16:51:25 · 14899 阅读 · 1 评论 -
干货 | Elasticsearch Nested类型深入详解
0、概要在Elasticsearch实战场景中,我们或多或少会遇到嵌套文档的组合形式,反映在ES中称为父子文档。父子文档的实现,至少包含以下两种方式:1)父子文档父子文档在5.X版本中通过parent-child父子type实现,即:1个索引对应多个type;6.X+版本已经不再支持一个索引多个type,6.X+的父子索引的实现改成Join。2)Nested嵌套类型本文通过一个例...原创 2018-10-06 13:08:20 · 94042 阅读 · 80 评论 -
Elasticsearch集群管理之1——如何高效的添加、删除节点?
1、问题抛出1.1 新增节点问题我的群集具有黄色运行状况,因为它只有一个节点,因此副本保持未分配状态,我想要添加一个节点,该怎么弄?1.2 删除节点问题假设集群中有5个节点,我必须在运行时删除2个节点。 那么如何在不影响指数的情况下完成?我有接近10 Gbp/hour的连续数据流,这些数据正在连续写入并索引化。重新平衡会对此有所影响吗?本文就从上面两个问题说起,将相关知识点串起来,内...原创 2018-10-20 23:50:44 · 26497 阅读 · 15 评论 -
为什么Elasticsearch查询变得这么慢了?
0、引言Elasticsearch社区中经常看到慢查询问题:“你能帮我看看Elasticsearch的响应时间吗?”或者是:“我的ES查询耗时很长,我该怎么做?”包含但不限于:Nested慢查询、集群查询慢、range查询慢等问题。1、两个维度每当我们得到这些类型的问题时,我们首先要深入研究两个主要方面:配置维度 - 查看当前系统资源和默认Elasticsearch选项。开发维度 ...原创 2018-10-14 16:05:30 · 33377 阅读 · 10 评论 -
干货 | 通透理解Elasticsearch聚合
使用Elasticsearch的过程中,除了全文检索,或多或少会做统计操作,而做统计操作势必会使用Elasticsearch聚合操作。类似mysql中group by的terms聚合用的最多,但当遇到复杂的聚合操作时,往往会捉襟见肘、不知所措…这也是社区中聚合操作几乎每天都会被提问的原因。本文基于官方文档,梳理出聚合的以下几个核心问题,目的:将Elasticsearch的聚合结合实际场景说透...原创 2018-10-03 16:53:36 · 13001 阅读 · 4 评论 -
Elasticsearch Top5典型应用场景
题记刚接触Elasticsearch的朋友,或多或少会遇到一个问题,Elasticsearch在实际公司应用中除了搜索到底能做什么? 本文给出了答案。除了“You Know, for Search”,Elasticsearch的使用会不断增长和变化。ObjectRocket作为一家托管云计算公司,已经在ObjectRocket平台上提供托管Elasticsearch一段时间了,并且能够看...原创 2018-09-16 19:56:50 · 32938 阅读 · 2 评论 -
Elasticsearch存储深入详解
在本文中,我们将研究Elasticsearch的各个部分写入数据目录的文件。我们将查看节点,索引和分片级文件,并简要说明其内容,以便了解Elasticsearch写入磁盘的数据。 1、从Elasticsearch路径说起Elasticsearch配置了多个路径: path.home:运行Elasticsearch进程的用户的主目录。默认为Java系统属性user.dir,它是...原创 2018-09-09 16:42:56 · 19277 阅读 · 0 评论 -
干货 | 论Elasticsearch数据建模的重要性
1、什么是数据模型?数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,用图形化的形式去描述业务规则的过程,从而表示现实世界中事务的相互关系的一种映射。 核心概念:实体:现实世界中存在的可以相互区分的事务或概念称为实体。 实体可以分为事物实体和概念实体。例如:一个学生、一个程序员等是事物实体。一门课、一个班级等称为概念实体。实体的属性:每个实体都有自己...原创 2018-09-01 14:42:02 · 11923 阅读 · 1 评论 -
思维导图 | Elasticsearch加速检索的15个核心建议
参考官网地址小结优化的文章非常多,但最最核心的还是官方的建议。适合自己的业务场景的才是最好的,需要结合自己的业务场景反复实践验证,最后“消化吸收”的才是自己的。脱离了业务场景,一味的追求“奇淫巧技”没有意义!...原创 2018-08-26 13:33:52 · 8833 阅读 · 0 评论 -
《死磕 Elasticsearch 方法论》:普通程序员高效精进的 10 大狠招!(完整版)
人工智能、大数据快速发展的今天,对于 TB 甚至 PB 级大数据的快速检索已然成为刚需。Elasticsearch 作为开源领域的后起之秀,从2010年至今得到飞跃式的发展。 Elasticsearch 以其开源、分布式、RESTFul API 三大优势,已经成为当下风口中“会飞的猪”。阿里云2018年2月5日已开价50-200W年薪招聘技术人员参与 Elasticsearch、Lucene ...原创 2018-02-08 20:45:36 · 44370 阅读 · 37 评论 -
干货 | Elasticsearch通用优化建议
1、题记Elasticsearch开发实战的后期会遇到性能问题,包括:创建索引性能、写入数据性能、检索性能等。网上有很多结合自己实际应用场景的相关优化建议,但“对症下药”才是关键。实际,官网已经有非常明确的相关优化建议。如果没有实战场景,一些特性的理解可能不到位。为此,我特定将官网建议做了翻译,并加了结合实战开发的通俗理解注释。此为第一篇:通用优化一般建议。后续会跟进索引优化、写入...原创 2018-08-19 21:26:32 · 7232 阅读 · 0 评论 -
干货 | Elasticsearch Reindex性能提升10倍+实战
1、reindex的速率极慢,是否有办法改善?以下问题来自社区:https://elasticsearch.cn/question/3782问题1:reindex和snapshot的速率极慢,是否有办法改善?reindex和snapshot的速率比用filebeat或者kafka到es的写入速率慢好几个数量级(集群写入性能不存在瓶颈),reindex/snapshot的时候CPU还...原创 2018-08-11 18:19:21 · 42487 阅读 · 21 评论 -
干货 | Elasticsearch索引生命周期管理探索
引言Elasticsearch上海Meetup中ebay工程师提了索引生命周期管理的概念。的确,在Demo级别的验证阶段我们数据量比较小,不太需要关注索引的生命周期,一个或几个索引基本就能满足需要。所以,这也会产生一种假象,认为:“Elasticsearch不就是增删改查,毛毛雨啦”的荒诞的假象。 但是,在实战开发的生产环境中,索引的动态模板设置、索引Mapping设置、索引分片数/副本数设...原创 2018-08-05 16:44:53 · 15773 阅读 · 0 评论 -
干货 | Elasticsearch集群黄色原因的终极探秘
1、Elasticsearch集群不同颜色代表什么?绿色——最健康的状态,代表所有的主分片和副本分片都可用; 黄色——所有的主分片可用,但是部分副本分片不可用; 红色——部分主分片不可用。(此时执行查询部分数据仍然可以查到,遇到这种情况,还是赶快解决比较好。2、Elasticsearch 集群颜色变黄色了要不要紧?Elasticsearch集群黄色代表:分配了所有主分...原创 2018-07-29 15:20:09 · 20700 阅读 · 7 评论