2018年05月_zkf541076398

转载基于ubuntu14.04的ambari安装及集群部署

第一节. Ambari简介Ambari跟Hadoop等开源软件一样，也是Apache Software Foundation中的一个项目，并且是顶级项目。目前最新的发布版本是2.4.1。就Ambari的作用来说，就是创建、管理、监视Hadoop的集群，但是这里的Hadoop是广义，指的是Hadoop整个生态圈（例如 Hive，Hbase，Sqoop，Zookeeper等，而并不仅是特指Hadoop...

2018-05-25 13:58:43 1173 1

转载美团点评 spark性能优化指南-高级篇

前言：最近开始玩spark，公司分享了一些不错的spark性能优化学习，故在此分享：http://tech.meituan.com/spark-tuning-pro.html 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，...

2018-05-21 22:32:45 744

转载美团Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、...

2018-05-21 22:31:39 209

转载 Spark在美团的实践

前言美团是数据驱动的互联网服务，用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志，这些日志数据将被汇总处理、分析、挖掘与学习，为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景，选择合适、高效的数据处理引擎能够大大提高数据生产的效率，进而间接或直接提升相关团队的工作效率。美团最初的数据处理以Hive SQL为主，底层计算引擎为Ma...

2018-05-21 22:23:13 187

转载 43.Elasticsearch索引迁移的四种方式

本文主要讲解Elasticsearch下实现索引迁移的几种方式。0、引言将ES中的索引拷贝到其他ES中，或者将ES整体迁移，研究发现有两个开源的工具：elaticserch-dump和 Elasticsearch-Exporter。除此之外，logstash在索引同步、迁移方面的作用也很大。两工具及logstash实现迁移的介绍、安装、使用、验证效果等展示如下：1、elasticsearch-...

2018-05-07 09:29:24 1436 3

转载 42.Elasticsearch Java API深入详解

0、题记之前Elasticsearch的应用比较多，但大多集中在关系型、非关系型数据库与Elasticsearch之间的同步。以上内容完成了Elasticsearch所需要的基础数据量的供给。但想要在海量的数据中找到和自己相关的业务数据，实现对已有的数据实现全文检索、分类统计等功能并应用到业务系统中，必须借助Java API来实现。1、Elasticsearch Java API 概览Elasti...

2018-05-07 09:28:22 208

转载 41.Elasticsearch Jest实战深入详解

以Jest为例，假设我们之前没有用过Jest，对Jest的认知，需要经历的过程：步骤1：Jest是什么？能解决什么问题？步骤2：Jest的优势是什么？为什么会出现？步骤3：Jest如何安装与使用？步骤4：Jest的样例Demo&实战。本文，就带你从认知的角度，一步步学会使用Jest。1、Jest介绍Jest是Elasticsearch 的Java Http Rest 客户端。Ela...

2018-05-07 09:28:10 875

转载 Spark快速入门之SBT安装

安装sbt本文方法有些繁琐，可以查看github最新更新：用sbt编译spark源码linux版本：CentOS6.7sbt: 0.13.9123Spark中没有自带sbt，需要手动安装sbt，我的方法是下载sbt-launch.jar，然后将源改为国内源（aliyun），我选择将sbt安装在/usr/local/sbt中。$sudo mkdir /usr/local/sbt$sudo...

2018-05-07 09:27:46 496

转载 40.Elasticsearch聚合优化 | 聚合速度提升5倍(lasitcsearch聚合进阶)

1、聚合为什么慢？大多数时候对单个字段的聚合查询还是非常快的，但是当需要同时聚合多个字段时，就可能会产生大量的分组，最终结果就是占用 es 大量内存，从而导致 OOM 的情况发生。实践应用发现，以下情况都会比较慢： 1）待聚合文档数比较多（千万、亿、十亿甚至更多）； 2）聚合条件比较复杂（多重条件聚合）； 3）全量聚合（翻页的场景用）。2、聚合优化方案探讨优化方案一：默认深度优先聚合改为广度优...

2018-05-02 17:18:57 682

转载 38.Elasticsearch聚合后分页深入详解(lasitcsearch聚合进阶)

1、Elasticsearch支持聚合后分页吗，为什么？不支持，看看Elasticsearch员工如何解读。这个问题，2014年在github上有很长的讨论。究其为什么ES不支持聚合后分页？可概括如下： 1）性能角度——聚合分页会在大量的记录中产生性能问题。 2）正确性角度——聚合的文档计数不准确。所以奇怪的事情可能会发生，如第二页的第一项具有比第一页的最后一个元素更高的计数。具体为什么会...

2018-05-02 17:18:32 396

转载 37.Elasticsearch聚合深入详解——对比Mysql实现(lasitcsearch聚合进阶)

聚合认知前提桶（Buckets）——满足特定条件的文档的集合指标（Metrics）——对桶内的文档进行统计计算SELECT COUNT(color) FROM table GROUP BY colorCOUNT(color) 相当于指标。 GROUP BY color 相当于桶。一、聚合起步1、创建索引1.1 创建索引DSL实现put carsPOST /cars/transactions/_...

2018-05-02 17:18:06 156

转载 36.Elasticsearch实战 | match_phrase搜不出来，怎么办(Elasticsearch检索进阶)

1、问题抛出某个词组在Elasitcsearch中的某个document中存在，就一定通过某种匹配方式把它搜出来。举例：title=公路局正在治理解放大道路面积水问题。输入关键词:道路，能否搜索到这个document呢？实际应用中可能需要： 1）检索关键词”理解”、”解放”、”道路”、“理解放大”，都能搜出这篇文档。 2）单个的字拆分“治”、“水”太多干扰，不要被检索出来。 3）待检索的词不在...

2018-05-02 17:15:55 463

转载 43.Elasticsearch自定义脚本完成性能测试

1、ES性能测试要求： 1）完成ES并发100次性能测试； 2）统计得出访问时间结果值。2、脚本实现#!/bin/shKEYWORDS_TXT="./keywords.txt"cat /dev/null > ./rst.txtecho "beginTime=`date`"cat $KEYWORDS_TXT | while read linedoecho "line=$lin...

2018-05-02 17:15:03 319

转载 44.esrally性能测试原理

1. 前提esrally的运行不会影响当前系统elasticsearch的一切正常业务。2. 性能测试原理大致步骤概括如下：第一步：安装esrally，耗时会半小时到1个小时之间。主要完成esrally必要组件安装，更多的是elasticsearch的安装。elasticsearch安装的两种方式：方式一：最常用的安装方法，源码安装。只需要运行esrally，等价于运行：esrally race ...

2018-05-02 17:14:38 603

转载 35.必须知道的23个最有用的Elasticseaerch检索技巧(Elasticsearch检索进阶)

题记本文详细论述了Elasticsearch全文检索、指定字段检索实战技巧，并提供了详尽的源码举例。是不可多得学习&实战资料。0、前言为了讲解不同类型ES检索，我们将要对包含以下类型的文档集合进行检索： 1. title 标题； 2. authors 作者； 3. summary 摘要； 4. release data 发布日期； 5. number of reviews...

2018-05-02 17:14:14 190

转载 34.一张图理清楚关系型/非关系型数据库与Elasticsearch同步(ES同步小结)

题记ES除了做TB级日志分析外，越来越多的被企业用来用作数据存储。但是，传统企业里面，数据存在关系型数据库Mysql，oracle中，或者存储在非关系型数据库Mongo中。如何处理业务数据的时候，将Mysql/oracle/mongo中的数据同步到ES中，然后对已有的数据进行全文检索？这些，就是本篇要思考和解决的问题。1、关系型&非关系型数据库与ES如何同步？少废话，直接上实践过的结果。 ...

2018-05-02 17:11:19 670

转载 33.如何将不同类型数据导入Elaticsearch中(ES同步小结)

题记Elaticsearch的原理明白了以后，手头有很多不同类型的数据，如: 1）单条数据，如程序中自己构造的JSON格式数据； 2）符合Elasticsearch索引规范的批量数据； 3）日志文件，格式*.log; 4）结构化数据，存储在mysql、oracle等关系型数据库中； 5）非结构化数据，存储在mongo中；如何将这些数据导入到Elasticsearch中呢？接下来，本文将逐个介绍。...

2018-05-02 17:11:04 940

转载 32.logstash实现日志文件同步到elasticsearch(ES文件同步)

引言：之前博文介绍过了mysql/oracle与ES之间的同步机制。而logstash最初始的日志同步功能还没有介绍。本文就logstash同步日志到ES做下详细解读。1、目的：将本地磁盘存储的日志文件同步（全量同步、实时增量同步）到ES中。 2、源文件：[root@5b9dbaaa148a test_log]# ll-rwxrwxrwx 1 root root 170 Jul 5 08:02 ...

2018-05-02 17:10:11 3019

zkf541076398的博客