elasticsearch
文章平均质量分 81
飘然渡沧海
这个作者很懒,什么都没留下…
展开
-
es在kibana修改数据
修改数据原创 2022-07-14 17:52:53 · 1691 阅读 · 0 评论 -
Elasticsearch-37.索引全生命周期管理及工具介绍
Elasticsearch索引全生命周期管理及工具介绍时间序列的索引特点索引中的数据随着时间, 持续不断增长按照时间序 列划分索引的好处&挑战按照时间进行划分索引, 会使得管理更加简单。例如,完整删除一个引, 性能比delete by query好:如何进行自动化管理,减少人工操作从Hot 移动到Warm定期关闭或者删除索引索引生命周期常见的阶段Elasticsearch CuratoreBay Lifecycle Management原创 2022-04-14 23:00:00 · 1001 阅读 · 0 评论 -
Elasticsearch-36.一些运维相关的建议 he 使用Shrink 与Rollover API管理索引
Elasticsearch一些运维相关的建议集群的生命周期管理预上线评估用户的需求及使用场景/数据建模/容量规划/选择合适的部署架构/性能测试上线监控流量 /定期检查潜在问题(防患 于未然,发现错误的使用方式,及时增加机器)对索引进行优化(Index Lifecycle Management) ,检测是否存在不均衡而导致有部分节点过热定期数据备份 /滚动升级下架前监控流量,实现Stage Decommission部署的建议根据实际场景, 选择合适的部署方式,选原创 2022-04-14 23:00:00 · 1139 阅读 · 0 评论 -
Elasticsearch-35.缓存及使用Circuit Breaker 限制内存使用 he 监控Elasticsearch 集群
Elasticsearch缓存及使用Circuit Breaker 限制内存使用Inside the JVM HeapNode Query Cache .每一个节点有一个 Node Query缓存由该节点的所有 Shard 共享,只缓存Filter Context相关内容Cache 采用LRU算法静态配置, 需要设置在每个Data Node上Node Level - indices. queries. cache. size:”10%”Index Level: index. q原创 2022-04-14 22:45:00 · 1438 阅读 · 0 评论 -
Elasticsearch-34.集群压力测试 he 段合并优化及注意事项
Elasticsearch集群压力测试压力测试压力 测试的目的.容量规划/性能优化/版本间性能比较/性能问题诊断确定系统稳定性,考察系统功能极限和隐患压力 测试的方法与步骤测试计划(确定测试场景和测试数据集)脚本开发测试环境搭建(不同的软硬件配置) &运行测试分析比较结果测试目标&测试数据测试目标测试集群的读写性能 /做集群容量规划对ES配置参数进行修改,评估优化效果修改Mapping 和Setting, 对数据建模进行优化,并测试评估性能原创 2022-04-14 22:30:00 · 830 阅读 · 0 评论 -
Elasticsearch-33.诊断集群的潜在问题 he 解决集群Yellow与Red的问题
Elasticsearch诊断集群的潜在问题集群运维所面临的挑战用户集群数量多,业务场景差异大使用与配置不当, 优化不够如何让用户 更加高效和正确的使用ES如何让用户更全面的了解自己的集群的使用状况发现问题滞后,需要防患于未然需要“有迹可循”,做到“有则改之,无则加勉”Elastic 有提供Support Diagnostics Tool - https://gi thub. com/e lastic/ support-diagnostics集群绿色,是否意味着足原创 2022-04-14 21:30:00 · 706 阅读 · 0 评论 -
Elasticsearch-32.生产环境常用配置与上线清单 he 集群写性能优化 he 集群读性能优化
Elasticsearch生产环境常用配置和上线清单Development vs.Production Mode从ES 5开始,支持Development 和Production 两种运行模式开发模式生产模式Bootstrap Checks一个集群在Production Mode 时,启动时必须通过所有Bootstrap 检测,否则会启动失败Bootstrap Checks 可以分为两类: JVM & Linux Checks。 Linux Checks只针对Li原创 2022-04-14 20:45:00 · 522 阅读 · 0 评论 -
Elasticsearch-31.在私有云上管理Elasticsearch 的一-些方法 he 在公有云上管理与部署Elasticsearch
Elasticsearch在私有云上管理Elasticsearch 的一-些方法管理单个集群ECE,帮助你管理多个Elasticsearch 集群基于Kubernetes的方案Kubernetes CRD构建自己的管理系统基于虚拟机的编排管理方式Puppet Infrastructure (Puppet / Elasticsearch Puppet Module / Foreman)Workflow based Provision & Management基于Ku原创 2022-04-14 20:00:00 · 1959 阅读 · 0 评论 -
Elasticsearch-31.分片设定及管理 he 如何对集群进行容量规划
Elasticsearch分片设定及管理单个分片7.0 开始,新创建一个索引时,默认只有一个主分片单个分片,查询算分,聚合不准的问题都可以得以避免单个索引, 单个分片时候,集群无法实现水平扩展即使增加新的节点,无法实现水平扩展两个分片集群增加一个节点后, Elasticsearch会自动进行分片的移动,也叫Shard Rebalancing如何设计分片数当分片数 >节点数时一旦集群中有新的数据节点加入,分片就可以自动进行分配分片 在重新分配时,系统不原创 2022-04-14 19:45:00 · 279 阅读 · 0 评论 -
Elasticsearch-30.常见的集群部署方式 和 Hot&Warm架构与ShardFiltering
Elasticsearch常见的集群部署方式节点类型不同角 色的节点Master eligible / Data / Ingest / Coordinating / Machine Learning在开发环境中,一个节点可承担多种角色在生产环境中,根据数据量, 写入和查询的吞吐量,选择合适的部署方式建议设置单一角色的节点(dedicated node)节点参数配置一个节点在默认情况会下同时扮演: master eligible, data node和ingest node原创 2022-04-14 19:15:00 · 318 阅读 · 1 评论 -
Elasticsearch-29.管理Elasticsearch集群 he 集群内部安全通信 he 集群与外部间的安全通信
Elasticsearch管理Elasticsearch 集群集群身份认证与用户鉴权原创 2022-04-14 19:00:00 · 455 阅读 · 0 评论 -
Elasticsearch-28.第⼆部分 总结与测验
Elasticsearch第⼆部分 总结与测验回顾总结:搜索与算分结构化搜索与⾮结构化搜索Term 查询和基于全⽂本 Match 搜索的区别对于需要做精确匹配的字段,需要做聚合分析的字段,字段类型设置为 KeywordQuery Context v.s Filter ContextFilter Context 可以避免算分,并且利⽤缓存Bool 查询中 Filter 和 Must Not 都属于 Filter Context搜索的算分TF-IDF / 字段 Boos原创 2022-04-12 22:30:00 · 72 阅读 · 0 评论 -
Elasticsearch-27.数据建模实例he数据建模最佳实践
Elasticsearch数据建模实例什么是数据建模?数据建模(Data modeling), 是创建数据模型的过程数据模型是对真实世界进⾏抽象描述的⼀种⼯具和⽅法,实现对现实世界的映射博客 / 作者 / ⽤户评论三个过程:概念模型 => 逻辑模型 => 数据模型(第三范式)数据模型:结合具体的数据库,在满⾜业务读写性能等需求的前提下,确定最终的定义数据建模:功能需求 + 性能需求如何对字段进⾏建模字段类型:Text v.s KeywordTex原创 2022-04-12 22:30:00 · 1184 阅读 · 0 评论 -
Elasticsearch-26.Ingest Pipeline 与 Painless Script
ElasticsearchIngest Pipeline 与 Painless Script需求:修复与增强写⼊的数据Ingest NodeElasticsearch 5.0 后,引⼊的⼀种新的节点类型。默认配置下,每个节点都是 Ingest Node具有预处理数据的能⼒,可拦截 Index 或 Bulk API 的请求对数据进⾏转换,并重新返回给 Index 或 Bulk API⽆需 Logstash,就可以进⾏数据的预处理,例如为某个字段设置默认值;重命名某个字段的字段名;对原创 2022-04-12 22:15:00 · 307 阅读 · 0 评论 -
Elasticsearch-26.⽂档的⽗⼦关系和Update By Query & Reindex API
Elasticsearch⽂档的⽗⼦关系Parent / Child对象和 Nested 对象的局限性每次更新,需要重新索引整个对象(包括根对象和嵌套对象)ES 提供了类似关系型数据库中 Join 的实现。使⽤ Join 数据类型实现,可以通过维护 Parent/ Child 的关系,从⽽分离两个对象⽗⽂档和⼦⽂档是两个独⽴的⽂档更新⽗⽂档⽆需重新索引⼦⽂档。⼦⽂档被添加,更新或者删除也不会影响到⽗⽂档和其他的⼦⽂档⽗⼦关系定义⽗⼦关系的⼏个步骤设置索引的 Mappi原创 2022-04-12 21:00:00 · 179 阅读 · 0 评论 -
Elasticsearch-25.聚合的精准度问题he对象及 Nested 对象
Elasticsearch聚合的精准度问题分布式系统的近似统计算法Min 聚合分析的执⾏流程Terms Aggregation 的返回值Terms 聚合分析的执⾏流程Terms 不正确的案例如何解决 Terms 不准的问题:提升 shard_size 的参数打开 show_term_doc_count_errorshard_size 设定调整 shard size ⼤⼩,降低 doc_count_error_upper_bound 来提升准确度增加整体计算量,提⾼了准原创 2022-04-12 21:00:00 · 696 阅读 · 0 评论 -
Elasticsearch-24.Pipeline聚合分析he聚合的作⽤范围及排序
ElasticsearchPipeline聚合分析⼀个例⼦:Pipeline:min_bucket在员⼯数最多的⼯种⾥,找出平均⼯资最低的⼯种Pipeline管道的概念: ⽀持对聚合分析的结果,再次进⾏聚合分析Pipeline 的分析结果会输出到原结果中,根据位置的不同,分为两类Sibling - 结果和现有分析结果同级Max,min,Avg & Sum BucketStats,Extended Status BucketPercentiles BucketPare原创 2022-04-12 20:45:00 · 351 阅读 · 0 评论 -
Elasticsearch-23.处理并发读写操作和Bucket & Metric 聚合分析及嵌套聚合
Elasticsearch处理并发读写操作并发控制的必要性ES 的乐观并发控制课程demoDELETE productsPUT productsPUT products/_doc/1{ "title":"iphone", "count":100}GET products/_doc/1PUT products/_doc/1?if_seq_no=1&if_primary_term=1{ "title":"iphone", "count":100}原创 2022-04-12 20:00:00 · 298 阅读 · 0 评论 -
Elasticsearch-22.排序及DocValues&Fielddata和分页与遍历-FromSize&SearchAfter&ScrollAPI
Elasticsearch排序及DocValues&Fielddata排序多字段进行排序DemoElasticsearch 默认对查询结果的相关性算分进⾏降序排序⽤户可以设定对单个 sorting 参数,⾃⾏设定排序。如果不对算分进⾏排序。_score 为 null⽀持多个字段排序对 Text 类型排序排序的过程排序是针对字段原始内容进⾏的。 倒排索引⽆法发挥作⽤需要⽤到正排索引。通过⽂档 Id 和字段快速得到字段原始内容Elasticsearch 有两种实现⽅法原创 2022-04-15 09:02:29 · 242 阅读 · 0 评论 -
Elasticsearch-21.文档分布式存储和分片及其生命周期和剖析分布式查询及相关性评分
Elasticsearch文档分布式存储文档存储在分片上文档会存储在具体的某个主分片和副本分片上:例如文档1,会存储在PO和RO分片.上文档到分片的映射算法确保文档能均匀分布在所用分片.上,充分利用硬件资源,避免部分机器空闲,部分机器繁忙潜在的算法随机/ Round Robin。当查询文档1,分片数很多,需要多次查询才可能查到文档1维护文档到分片的映射关系,当文档数据:量大的时候,维护成本高实时计算,通过文档1,自动算出,需要去那个分片.上获取文档文档到原创 2022-04-11 21:15:00 · 279 阅读 · 0 评论 -
Elasticsearch-20.集群分布式模型及选主与脑裂问题和分片与集群的故障转移
Elasticsearch集群分布式模型及选主与脑裂问题分布式特性Elasticsearch 的分布式架构带来的好处存储的水平扩容,支持PB级数据- 提高系统的可用性,部分节点停止服务,整个集群的服务不受影响Elasticsearch 的分布式架构不同的集群通过不同的名字来区分,默认名字“elasticsearch”通过配置文件修改,或者在命令行中-E cluster.name=geektime进行设定节点节点是一个Elasticsearch的实例其本质上就是一个J原创 2022-04-11 20:30:00 · 592 阅读 · 0 评论 -
Elasticsearch-19.自动补全与基于上下文的提示与跨集群搜索和跨集群搜索
Elasticsearch自动补全与基于上下文的提示The Completion SuggesterCompletion Suggester提供了“自动完成”(Auto Complete)的功能。用户每输入一个字符,就需要即时发送一个查询请求到后段查找匹配项对性能要 求比较苛刻。Elasticsearch 采用了不同的数据结构,并非通过倒排索弓|来完成。而是将Analyze的数据编码成FST和索引一起存放。FST会被ES整个加载进内存,速度很快FST只能用于前缀查找使用Completi原创 2022-04-11 19:30:00 · 864 阅读 · 0 评论 -
Elasticsearch-18.综合排序:Function Score Query 优化算分和Term&PhraseSuggester
Elasticsearch综合排序:Function Score Query 优化算分算分与排序Elasticsearch 默认会以文档的相关度算分进行排序可以通过指定一个或者多个字段进行排序使用相关度算分(score)排序, 不能满足某些特定条件无法针对相关度, 对排序实现更多的控制Function Score QueryFunction Score Query可以在查询结束后, 对每一个匹配的文档进行一系列的重新算分,根据新生成的分数进行排序。提供了几种默认的计原创 2022-04-11 19:00:00 · 748 阅读 · 0 评论 -
Elasticsearch-17.SpaceJam一个全文搜索的实例和使用Search Template 和Index Alias
ElasticsearchSpaceJam一个全文搜索的实例TMDB数据库数据导入Use Case一查找Space JamHighlight -结果高亮测试相关性一理解原理+多分析+多调整测试技术分为道和术两种道一 原理和原则术一 具体的做法,具体的解法关于搜索,为了有一个好的搜索结果。除了真正理解背后的原理,更需要多加实践与分析单纯追求“术”,会一直很辛苦。只有掌握了本质和精髓之“道”,做事才能游刃有余要做好搜索,除了理解原理,也需要坚持去分析一些不好的原创 2022-04-11 18:45:00 · 340 阅读 · 0 评论 -
Elasticsearch-16.多语言及中文分词与检索
Elasticsearch多语言及中文分词与检索自然语言与查询Recall当处理人类自 然语言时,有些情况,尽管搜索和原文不完全匹配,但是希望搜到- -些内容Quick brown fox和fast brown fox / Jumping fox和Jumped foxes一些可采取的优化归一化词元:清除变音符号,如role的时候也会匹配role抽取词根:清除单复数和时态的差异包含同义词拼写错误:拼写错误,或者同音异形词混合多语言的挑战一些具体的多语言场景不同的索原创 2022-04-11 18:30:00 · 490 阅读 · 0 评论 -
Elasticsearch-15.单字符串多字段查询-DisMaxQuery与单字符串多字段查询-Multi-Match
Elasticsearch单字符串多字段查询-DisMaxQuery单字符串查询单字符串查询的实例算分过程查询 should语句中的两个查询加和两个查询的评分乘以匹配语句的总数除以所有 语句的总数查询结果及分析Disjunction Max Query查询.上例中,title和body相互竞争不应该将分数简单叠加,而是应该找到单个最佳匹配的字段的评分Disjunction Max Query将任何与任一查询匹配的文档作为结果返回。采用字段上最匹配的评分最终评分原创 2022-04-11 18:15:00 · 798 阅读 · 0 评论 -
Elasticsearch-14.搜索的相关性算分和Query & Filtering 与多字符串多字段查询
Elasticsearch搜索的相关性算分相关性和相关性算分相关性- Relevance搜索的相关性算分,描述了一个文档和查询语句匹配的程度。ES 会对每个匹配查询条件的结果进行算分_ score打分的本质是排序,需要把最符合用户需求的文档排在前面。ES5之前,默认的相关性算分采用TF-IDF,现在采用BM 25词频TFTerm Frequency: 检索词在一 篇文档中出现的频率检索词出现的次数除以文档的总字数度量一条查询和结果文档相关性的简单方法:简单将搜索中每原创 2022-04-11 18:00:00 · 2224 阅读 · 0 评论 -
Elasticsearch-13.基于词项和基与全文的搜索与结构化搜索
Elasticsearch基于词项和基与全文的搜索基于Term的查询Term的重要性Term是表达语意的最小单位 。搜索和利用统计语言模型进行自然语言处理都需要处理Term特点Term Level Query: Term Query / Range Query / Exists Query / Prefix Query /Wildcard Query在ES中,Term查询,对输入不做分词。会将输入作为一个整体,在倒排索引中查找准确的词项,并且使用相关度算分公式为每个包含该词项的文档原创 2022-04-08 23:00:00 · 426 阅读 · 0 评论 -
Elasticsearch-12.Elasticsearch第一部分总结
Elasticsearch第一部分总结与回顾:产品与使用场景Elasticsearch是-个开源的分布式搜索与分析引擎,提供了近实时搜索和聚合两大功能Elastic Stack包括Elasticsearch,Kibana, L ogstash, Beats 等一系列产 品。Elasticsearch是核心引擎,提供了海量数据存储,搜索和聚合的能力。Beats 是轻量的数据采集器,Logstash用来做数据转换,Kibana 则提供了丰富的可视化展现与分析的功能。Elastic St原创 2022-04-08 16:53:34 · 650 阅读 · 0 评论 -
Elasticsearch-11.Elasticsearch聚合分析简介
Elasticsearch什么是聚合(Aggregation)什么是聚合(Aggregation)Elasticsearch 除搜索以外,提供的针对ES数据进行统计分析的功能 + 实时性高. + Hadoop (T+1)通过聚合, 我们会得到一个数据的概览,是分析和总结全套的数据,而不是寻找单个文档尖沙咀和香港岛的客房数量不同的价格区间,可预定的经济型酒店和五星级酒店的数量高性能,只需要一条语句,就可以从Elasticsearch得到分析结果无需在客户端自己去实原创 2022-04-08 21:00:00 · 692 阅读 · 0 评论 -
Elasticsearch-10.多字段特性及配置自定义Analyzer和Index Template和Dynamic Template
Elasticsearch多字段特性及配置自定义Analyzer多字段类型Exact Values v.s Full TextExcat values V.S Full TextExact Value:包括数字/日期/具体一个字符串(例如“Apple Store”)Elasticseach 中的keyword全文本, 非结构化的文本数据Elasticsearch 中的textExact Values不需要被分词Elasticsearch 为每一个字段创建一个倒原创 2022-04-08 20:30:00 · 1459 阅读 · 0 评论 -
Elasticsearch-9.DynamicMapping和常见字段类型与显式Mapping设置与常见参数介绍
ElasticsearchDynamicMapping和常见字段类型Mapping中的字段一旦设定后,禁止直接修改。因为倒排索引生成后不允许直接修改。需要重新建立新的索引,做reindex操作。类似数据库中的表结构定义,主要作用定义所以下的字段名字定义字段的类型定义倒排索引相关的配置(是否被索引?采用的Analyzer)对新增字段的处理truefalsestrict在object下,支持做dynamic的属性的定义什么是MappingMapping 类似数据库中的schem原创 2022-04-08 15:18:53 · 354 阅读 · 0 评论 -
Elasticsearch-8.RequestBody与QueryDSL简介与Query String & Simple Query String查询
ElasticsearchRequestBody与QueryDSLRequest Body Search将查询语句通过HTTP Requedt Body发送给ElasticsearchQuery DSL分页From从0开始,默认返回10个结果获取靠后的翻页成本较高排序source filtering脚本字段使用查询表达式- Match短语搜索- Match PhraseAPI#ignore_unavailable=true,可以忽略尝试访问不存在的索引“40原创 2022-04-08 11:21:01 · 195 阅读 · 0 评论 -
Elasticsearch-7.SearchAPI概览-URISearch详解
ElasticsearchSearchAPI概览URI Search在URL中使用查询参数Request Body Search使用Elasticsearch提供的,基于JSON格式的更加完备的Query Domain Specific L anguage (DSL )指定查询索引URL 查询Request bodyresponse搜索的相关性RelevanceWeb搜索电商搜索衡量相关性Information RetrievalPrecis原创 2022-04-07 20:48:34 · 343 阅读 · 0 评论 -
Elasticsearch-6.倒排索引入门以及使用分析器进行分词
Elasticsearch倒排索引入门前导:https://zh.wikipedia.org/wiki/%E5%80%92%E6%8E%92%E7%B4%A2%E5%BC%95假设图书与搜索引擎的索引类比正排索引与倒排索引倒排索引的核心组成倒排索引包含两个部分单词词典 (Term Dictionary),记录所有文档的单词,记录单词到倒排列表的关联关系单词词典一般比较大,可以通过B +树或哈希拉链法实现,以满足高性能的插入与查询倒排列表(Posting List) - 记录原创 2022-04-07 20:15:53 · 355 阅读 · 0 评论 -
Elasticsearch-5.文档的基本CRUD与批量操作
Elasticsearch文档的crudcreate 一个文档get 一个文档index 文档update 文档bulk API批量读取-mget批量查询 - msearch命令余留可参考############Create Document#############create document. 自动生成 _idPOST users/_doc{ "user" : "Mike", "post_date" : "2019-04-15T14:12:12",原创 2022-04-07 19:31:07 · 132 阅读 · 0 评论 -
Elasticsearch-4.基本概念(2) 一集群/节点/分片/副本
Elasticsearch节点,主分片和副本有哪些不同类型的节点主分片和分片副本的作用相关API介绍-查看集群的健康状态/ Cat API /查看settings使用Kibana和Cerebro工具查看集群的状况分布式系统的可用性与扩展性高可用性服务可用性-允许有节点停止服务数据可用性一部分节点丢失,不会丢失数据.可扩展性请求量提升/数据的不断增长(将数据分布到所有节点上)分布式特性Elasticsearch 的分布式架构的好处存储原创 2022-04-01 20:00:00 · 141 阅读 · 0 评论 -
Elasticsearch-3.基本概念-索引,文档和REST API
Elasticsearch基本概念文档(Document)Elasticsearch是面向文档的,文档是所有可搜索数据的最小单位日志文件中的 日志项一本电影的具体信息/一张唱片的详细信息MP3播放器里的一首歌/一篇PDF文档中的具体内容文档会被序列化成JSON格式, 保存在Elasticsearch 中JSON 对象由字段组成,每个字段都有对应的字段类型 (字符串 /数值/布尔/日期/二进制/范围类型)每个文档都有一个Unique ID你可以自 己指定ID或者原创 2022-04-01 14:23:37 · 86 阅读 · 0 评论 -
Elasticsearch-2 安装Kibana 安装Logstash
Elasticsearch下载这里我安装的跟我的es对应版本https://www.elastic.co/cn/downloads/past-releases/kibana-7-1-0建议大家尽量使用对应版本,避免造成不兼容解压安装解压 tar -zxvf kibana-7.1.0-linux-x86_64.tar.gz找到kibana.yml 修改端口,因为我上一张修改了es的端口号,所以这里也要修改一下/kibana-7.1.0-linux-x86_64/configserver.原创 2022-03-31 21:30:12 · 1137 阅读 · 0 评论 -
Elasticsearch-1 介绍与安装
elastic search版本特性介绍新特性5.xLucene 6.x, 性能提升,默认打分机制从TF- -IDF改为BM 25支持Ingest节点/ Painless Scripting / Completion suggested支持/原生的Java REST客户端Type标记成deprecated, 支持了Keyword的类型Type标记成deprecated, 支持了Keyword的类型内部引擎移除了避免同一文档并发更新的竞争锁,带来15% - 20%的性能提升Instant原创 2022-03-31 19:07:19 · 1537 阅读 · 0 评论