ES
文章平均质量分 61
xuguokun1986
这个作者很懒,什么都没留下…
展开
-
Elasticsearch学习笔记
Why Elasticsearch?由于需要提升项目的搜索质量,最近研究了一下Elasticsearch,一款非常优秀的分布式搜索程序。最开始的一些笔记放到github,这里只是归纳总结一下。首先,为什么要使用Elasticsearch?最开始的时候,我们的项目仅仅使用MySQL进行简单的搜索,然后一个不能索引的like语句,直接拉低MySQL的性能。后来,我们曾考虑过sphinx转载 2015-12-29 20:12:46 · 300 阅读 · 0 评论 -
hive对第三方插件的集中管理
在上一篇博客发现一个问题:add jar file:///home、hadoop、xuguokun/elasticsearch-hadoop-2.2.0.jar;该方法只能在一个Terminal中起作用,当关闭当前Terminal再重新开启新的时,刚刚add jar引入的jar就不再起作用了。解决上述问题的方法:在hive的hive-site.xml进行配置,配置的原创 2016-03-28 09:34:04 · 1200 阅读 · 0 评论 -
es的几个重要接口的应用
一、全文的模糊查询(任何字段中很有"get"z字符串都认为是匹配)1、测试数据1,name,get,name2,hget,age,name3,name,age,hgethgeth,name,age,name5,name,age,name2、测试代码package com.query.dsl;import java.text.ParseException;i原创 2016-04-22 14:11:18 · 3718 阅读 · 1 评论 -
High disk watermark in elastcisearch
遇见这种情况很可能是某些节点的磁盘空间所剩无几。原创 2017-04-27 18:11:21 · 668 阅读 · 0 评论 -
elasticsearch 1.x集群优化
设置 Filter cache缓存是提高性能的很重要的手段, es 中的 filter cache 能够把搜索时的 filter 条件的结果进行缓存,当进行相同的 filter 搜索时( query 不同, filter 条件相同) ,es 能够很快的返回结果。这是因为第一次计算完 filter 后, es 就把结果存储到了缓存中,下次搜索时, es 就不用再计算。Es 的 fil转载 2017-04-27 18:12:25 · 318 阅读 · 0 评论 -
supervisor管理elasticsearch和logstash
1.安装:先安装setuptools:wget https://bootstrap.pypa.io/ez_setup.py -O - | python再安装supervisor:(下路径载:https://pypi.python.org/pypi/supervisor)tar zxvf supervisor-3.3.2.tar.gzcd supervisor-3.3.2原创 2017-06-22 09:58:49 · 3955 阅读 · 1 评论 -
Elasticsearch关于unassigned shards的查看
使用ES时经常会在索引上出问题,总结一些小tips,以后遇到什么问题,以及相应的解决方案,都会慢慢增加。关于unassigned shards的问题,一般遇到这种情况都是——重启试试。因为可能是网络通信问题会影响分片分配。另外也可以看看日志,报了什么错,有遇到过硬盘了满了或者超过85%的限制导致不能分配分片的情况,具体问题具体分析。不行的话,只能强制删除。转载 2017-09-07 17:05:43 · 2596 阅读 · 0 评论 -
ElasticSearch 2 (12) - Shard数调优(ElasticSearch性能)
摘要当创建一个索引的时候,我们经常会面对一个问题:要为索引分配多少个shard?多少个replica?对于这个问题,仍然没有明确的统一答案,但是本文会给出一些引导,方便在实施ElasticSearch时给出合适的Shard和Replica数。版本elasticsearch版本: elasticsearch-2.x内容什么是一个Shard?Shar转载 2017-09-07 17:27:27 · 1680 阅读 · 0 评论 -
ES监控(持续更新) .
How to monitor Elasticsearch performance https://www.datadoghq.com/blog/monitor-elasticsearch-performance-metrics/How to collect Elasticsearch metrics https://www.datadoghq.com/blog/collect-elas转载 2017-09-08 11:44:23 · 1279 阅读 · 0 评论 -
Elasticsearch 集群分配多少分片合理
Elasticsearch 是一个非常通用的平台,支持各种用户实例,并为组织数据和复制策略提供了极大的灵活性。但是,这种灵活性有时会使我们很难在早期确定如何很好地将数据组织成索引和分片,尤其是不熟悉 Elastic Stack。虽然不一定会在首次启动时引起问题,但随着数据量的增长,它们可能会导致性能问题。群集拥有的数据越多,纠正问题也越困难,因为有时可能需要重新索引大量数据。因此,当...转载 2019-06-13 14:48:20 · 1984 阅读 · 0 评论 -
ES查看segment大小
摘自:http://www.aboutyun.com/thread-17078-1-1.htmlSegment MemorySegment不是file吗?segment memory又是什么?前面提到过,一个segment是一个完备的lucene倒排索引,而倒排索引是通过词典 (Term Dictionary)到文档列表(Postings List)的映射关系,快速做查询的。 由于词典...转载 2019-06-13 15:18:23 · 4240 阅读 · 1 评论 -
Elasticsearch调优——segment memory
https://my.oschina.net/fufangchun/blog/15411561、索引之segment memory: 一个segment是一个完备的lucene倒排索引,而倒排索引是通过词典(Term Dictionary)到文档列表(Postings List)的映射关系,快速做查询的。所以每个segment都有会一些索引数据驻留在heap里。...转载 2019-06-13 15:34:48 · 3550 阅读 · 0 评论 -
ELascticsearch 5.0 Optimize 强制合并segment java api
https://blog.csdn.net/likui1314159/article/details/53405570转载 2019-06-13 15:37:46 · 162 阅读 · 0 评论 -
Es的几个常见故障
Elasticsearch是一个开源的分布式实时搜索与分析引擎,支持云服务。它是基于Apache Lucene搜索引擎的类库创建的,提供了全文搜索能力、多语言支持、专门的查询语言、支持地理位置服务、基于上下文的搜索建议、自动完成以及搜索片段(snippet)的能力。Elasticsearch支持RESTful的API,可以使用JSON通过HTTP调用它的各种功能,包括搜索、分析与监控。此外,它还为转载 2015-12-22 14:14:57 · 8133 阅读 · 0 评论 -
hive与es之间实现数据交互
1、环境描述:hadoop集群环境:hadoop-2.6.0;3台集群环境hbase集群环境:habase-1.1.2 ;3台集群环境hive环境:hive-1.2.1;1台测试环境elasticsearch:elasticsearch-1.7.1测试环境2、下载hive与es之间数据交互的插件。说明:如果用ElasticSearch版本为2.1.0,必须使用elastic原创 2016-03-26 10:45:01 · 14859 阅读 · 0 评论 -
ElasticSearch学习6_从[FIELDDATA]Data too large错误看FieldData配置
1. 产生Data too large异常今早运行查询时,ES返回了如下报错:{ "error": "... CircuitBreakingException[[FIELDDATA] Data too large, data for [proccessDate] would be larger than limit of [10307921510/9.5gb]]; }]", "转载 2015-12-24 19:35:19 · 591 阅读 · 0 评论 -
ElasticSearch的Gateway及存储原理
ES里有一个叫做gateway的东西,今天抽空理一下,前面翻译ES的一篇博文叫做“搜索引擎与时间机器”,既然里面谈到了时间机器,就免不了需要穿越时空的的门咯,I guess,也许gateway这名字就是这么来的,其实在ES里面,gateway的主要职责是用来对数据进行长持久化(持久化了之后加上版本信息,不就可以自由的往还于过去未来之间了吗?),另外,整个集群重启之后可以通过gateway重新恢转载 2015-12-29 20:39:30 · 806 阅读 · 0 评论 -
ES多条件查询(1)
方案:(1) Client client = new TransportClient().addTransportAddresses(new InetSocketTransportAddress("127.0.0.1", 9300)); BoolQueryBuilder boleanQueryBuilder = QueryBuilders.boolQuery(); b原创 2016-01-01 15:47:05 · 7250 阅读 · 0 评论 -
Es基于多条件进行查询(2)
例子1:基于时间段并且要有属性的限制,详细例子如下 BoolQueryBuilder boleanQueryBuilder = QueryBuilders.boolQuery(); boleanQueryBuilder.must(QueryBuilders.termsQuery("PROTOCOL_NAME",map.get("PROTOCOL_NAME") ));原创 2016-01-16 09:46:56 · 949 阅读 · 0 评论 -
elasticsearch配置小记
基于 elasticsearch 1.4.4 版本.安装方式为RPM安装.所有涉及路径需根据实际情况来设置判断.0x01 内存调整调整ES内存分配有多种方式,建议调整 /etc/sysconfig/elasticsearch 中的设置(还可以直接修改bin下的启动脚本).# Directory where the Elasticsearch binary distributio转载 2015-12-24 19:34:31 · 1527 阅读 · 0 评论 -
AggregationGlobal
1.AggregationGlobal是不受其他的Query的影响的:测试数据:shirt,10shose,20shirt,20trouser,40trouser,50blouse,40blouse,602.测试代码 Client client = new TransportClient().addTransportAddresses(new InetSoc原创 2016-01-19 09:10:05 · 752 阅读 · 0 评论 -
elasticsearch安装配置及中文分词
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。 我们建立一个网站或应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是很难的。我们希望我们的搜索解决方案要快,我们希望有一个零配置和一个完全免费的搜索模式,我们希望能够简单地使用J转载 2016-01-20 17:21:27 · 576 阅读 · 0 评论 -
唯品会峰值系统架构演变
摘要:在唯品会,用户来得越早,越能买到又便宜又好的东西,所以在大促一开始会涌入大量用户,形成系统流量峰值。本文总结了唯品会419时日志平台遇到的问题和解决方案,同时根据实践经验,整理了在面对峰值前要做的准备。唯品会每年最大力度的促销活动在4月19日,就是419(For One Night),意在告诉唯品会用户只有这一晚有这么大的折扣力度(本文中用“大促”就指代419) 。唯品会是一个闪转载 2016-01-21 12:41:20 · 471 阅读 · 0 评论 -
Bloom Filter概念和原理
Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom转载 2016-01-23 09:44:30 · 274 阅读 · 0 评论 -
window下安装es
windows下安装elasticsearch1.下载elasticsearch,地址:http://www.elasticsearch.org/overview/elkdownloads/2.配置环境变量path,指向elasticsearch的bin3.发布为服务为elasticesarch。打开dos窗口输入:service install elastic原创 2015-12-21 17:11:51 · 1599 阅读 · 0 评论 -
Elasticsearch结合Nginx使用
Elasticsearch是一种先进的,高性能的,可扩展的开源搜索引擎,提供全文搜索和实时分析的结构化和非结构化数据。 它的特点是可以使用RESTful API over HTTP,因此很容易融入现代网络架构。 由于NGINX具有出色的性能非常高并发率,再加上负载平衡的HTTP流量功能,这是非常适合用作为您扩展到多个Elasticsearch服务器的反向代理负载均衡。转载 2015-12-23 08:29:30 · 1195 阅读 · 0 评论 -
ElasticSearch工作原理、查询及常用插件 | 玩转ELK Stack(1)
本文根据高效运维系列微信群专家群友文章整理而成。欢迎关注“高效运维”公众号,以免费参加「运维讲坛」每月一次的线下交流活动;并抢先赏阅干货满满的各种原创文章(详见文末)。编辑高浩淼(整理)作者简介马永亮马哥Linux运维培训创始人正文各位运维同行朋友们,大家好,非常高兴能有这么个机会与大家一起交流一些技术问题。此前的各位分享达人转载 2015-12-23 09:10:12 · 1680 阅读 · 0 评论 -
The BulkProcessor class offers a simple interface to flush bulk operations automatically based on th
1、测试代码package com.document.api;import static org.elasticsearch.common.xcontent.XContentFactory.jsonBuilder;import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundExceptio原创 2016-01-24 15:19:11 · 645 阅读 · 0 评论 -
elasticsearch5.x系列之九单播和多播配置以及选择,拿走不谢。
elasticsearch 2.0 开始默认单播的形式。单播配置下节点向指定的主机发送单播请求,配置如下:discovery.zen.ping.multicast.enabled: falsediscovery.zen.fd.ping_timeout: 100sdiscovery.zen.ping.timeout: 100sdiscovery.zen.minimum_mast...转载 2019-06-03 13:30:01 · 907 阅读 · 0 评论