自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zkf541076398的博客

数据小白

  • 博客(18)
  • 收藏
  • 关注

转载 基于ubuntu14.04的ambari安装及集群部署

第一节. Ambari简介Ambari跟Hadoop等开源软件一样,也是Apache Software Foundation中的一个项目,并且是顶级项目。目前最新的发布版本是2.4.1。就Ambari的作用来说,就是创建、管理、监视Hadoop的集群,但是这里的Hadoop是广义,指的是Hadoop整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper等,而并不仅是特指Hadoop...

2018-05-25 13:58:43 1173 1

转载 美团点评 spark性能优化指南-高级篇

前言:最近开始玩spark,公司分享了一些不错的spark性能优化学习,故在此分享:http://tech.meituan.com/spark-tuning-pro.html 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述有的时候,...

2018-05-21 22:32:45 744

转载 美团Spark性能优化指南——基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、...

2018-05-21 22:31:39 209

转载 Spark在美团的实践

前言美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进而间接或直接提升相关团队的工作效率。 美团最初的数据处理以Hive SQL为主,底层计算引擎为Ma...

2018-05-21 22:23:13 187

转载 43.Elasticsearch索引迁移的四种方式

本文主要讲解Elasticsearch下实现索引迁移的几种方式。0、引言将ES中的索引拷贝到其他ES中,或者将ES整体迁移,研究发现有两个开源的工具:elaticserch-dump和 Elasticsearch-Exporter。 除此之外,logstash在索引同步、迁移方面的作用也很大。 两工具及logstash实现迁移的介绍、安装、使用、验证效果等展示如下:1、elasticsearch-...

2018-05-07 09:29:24 1436 3

转载 42.Elasticsearch Java API深入详解

0、题记之前Elasticsearch的应用比较多,但大多集中在关系型、非关系型数据库与Elasticsearch之间的同步。以上内容完成了Elasticsearch所需要的基础数据量的供给。但想要在海量的数据中找到和自己相关的业务数据,实现对已有的数据实现全文检索、分类统计等功能并应用到业务系统中,必须借助Java API来实现。1、Elasticsearch Java API 概览Elasti...

2018-05-07 09:28:22 208

转载 41.Elasticsearch Jest实战深入详解

以Jest为例,假设我们之前没有用过Jest,对Jest的认知,需要经历的过程: 步骤1:Jest是什么?能解决什么问题? 步骤2:Jest的优势是什么?为什么会出现? 步骤3:Jest如何安装与使用? 步骤4:Jest的样例Demo&实战。本文,就带你从认知的角度,一步步学会使用Jest。1、Jest介绍Jest是Elasticsearch 的Java Http Rest 客户端。Ela...

2018-05-07 09:28:10 875

转载 Spark快速入门之SBT安装

安装sbt本文方法有些繁琐,可以查看github最新更新:用sbt编译spark源码linux版本:CentOS6.7sbt: 0.13.9123Spark中没有自带sbt,需要手动安装sbt,我的方法是下载sbt-launch.jar,然后将源改为国内源(aliyun),我选择将sbt安装在/usr/local/sbt中。$sudo mkdir /usr/local/sbt$sudo...

2018-05-07 09:27:46 496

转载 40.Elasticsearch聚合优化 | 聚合速度提升5倍(lasitcsearch聚合进阶)

1、聚合为什么慢?大多数时候对单个字段的聚合查询还是非常快的, 但是当需要同时聚合多个字段时,就可能会产生大量的分组,最终结果就是占用 es 大量内存,从而导致 OOM 的情况发生。 实践应用发现,以下情况都会比较慢: 1)待聚合文档数比较多(千万、亿、十亿甚至更多); 2)聚合条件比较复杂(多重条件聚合); 3)全量聚合(翻页的场景用)。2、聚合优化方案探讨优化方案一:默认深度优先聚合改为广度优...

2018-05-02 17:18:57 682

转载 38.Elasticsearch聚合后分页深入详解(lasitcsearch聚合进阶)

1、Elasticsearch支持聚合后分页吗,为什么?不支持,看看Elasticsearch员工如何解读。   这个问题,2014年在github上有很长的讨论。究其为什么ES不支持聚合后分页?可概括如下: 1)性能角度——聚合分页会在大量的记录中产生性能问题。 2)正确性角度——聚合的文档计数不准确。 所以奇怪的事情可能会发生,如第二页的第一项具有比第一页的最后一个元素更高的计数。具体为什么会...

2018-05-02 17:18:32 396

转载 37.Elasticsearch聚合深入详解——对比Mysql实现(lasitcsearch聚合进阶)

聚合认知前提桶(Buckets)——满足特定条件的文档的集合 指标(Metrics)——对桶内的文档进行统计计算SELECT COUNT(color) FROM table GROUP BY colorCOUNT(color) 相当于指标。 GROUP BY color 相当于桶。一、聚合起步1、创建索引1.1 创建索引DSL实现put carsPOST /cars/transactions/_...

2018-05-02 17:18:06 156

转载 36.Elasticsearch实战 | match_phrase搜不出来,怎么办(Elasticsearch检索进阶)

1、问题抛出某个词组在Elasitcsearch中的某个document中存在,就一定通过某种匹配方式把它搜出来。 举例:title=公路局正在治理解放大道路面积水问题。输入关键词:道路,能否搜索到这个document呢? 实际应用中可能需要: 1)检索关键词”理解”、”解放”、”道路”、“理解放大”,都能搜出这篇文档。 2)单个的字拆分“治”、“水”太多干扰,不要被检索出来。 3)待检索的词不在...

2018-05-02 17:15:55 463

转载 43.Elasticsearch自定义脚本完成性能测试

1、ES性能测试要求: 1)完成ES并发100次性能测试; 2)统计得出访问时间结果值。2、脚本实现#!/bin/shKEYWORDS_TXT="./keywords.txt"cat /dev/null > ./rst.txtecho "beginTime=`date`"cat $KEYWORDS_TXT | while read linedoecho "line=$lin...

2018-05-02 17:15:03 319

转载 44.esrally性能测试原理

1. 前提esrally的运行不会影响当前系统elasticsearch的一切正常业务。2. 性能测试原理大致步骤概括如下:第一步:安装esrally,耗时会半小时到1个小时之间。主要完成esrally必要组件安装,更多的是elasticsearch的安装。elasticsearch安装的两种方式:方式一:最常用的安装方法,源码安装。只需要运行esrally,等价于运行:esrally race ...

2018-05-02 17:14:38 603

转载 35.必须知道的23个最有用的Elasticseaerch检索技巧(Elasticsearch检索进阶)

题记本文详细论述了Elasticsearch全文检索、指定字段检索实战技巧,并提供了详尽的源码举例。是不可多得学习&实战资料。0、前言为了讲解不同类型ES检索,我们将要对包含以下类型的文档集合进行检索: 1. title 标题; 2. authors 作者; 3. summary 摘要; 4. release data 发布日期; 5. number of reviews...

2018-05-02 17:14:14 190

转载 34.一张图理清楚关系型/非关系型数据库与Elasticsearch同步(ES同步小结)

题记ES除了做TB级日志分析外,越来越多的被企业用来用作数据存储。但是,传统企业里面,数据存在关系型数据库Mysql,oracle中,或者存储在非关系型数据库Mongo中。如何处理业务数据的时候,将Mysql/oracle/mongo中的数据同步到ES中,然后对已有的数据进行全文检索?这些,就是本篇要思考和解决的问题。1、关系型&非关系型数据库与ES如何同步?少废话,直接上实践过的结果。 ...

2018-05-02 17:11:19 670

转载 33.如何将不同类型数据导入Elaticsearch中(ES同步小结)

题记Elaticsearch的原理明白了以后,手头有很多不同类型的数据,如: 1)单条数据,如程序中自己构造的JSON格式数据; 2)符合Elasticsearch索引规范的批量数据; 3)日志文件,格式*.log; 4)结构化数据,存储在mysql、oracle等关系型数据库中; 5)非结构化数据,存储在mongo中; 如何将这些数据导入到Elasticsearch中呢?接下来,本文将逐个介绍。...

2018-05-02 17:11:04 940

转载 32.logstash实现日志文件同步到elasticsearch(ES文件同步)

引言:之前博文介绍过了mysql/oracle与ES之间的同步机制。而logstash最初始的日志同步功能还没有介绍。本文就logstash同步日志到ES做下详细解读。1、目的:将本地磁盘存储的日志文件同步(全量同步、实时增量同步)到ES中。 2、源文件:[root@5b9dbaaa148a test_log]# ll-rwxrwxrwx 1 root root 170 Jul 5 08:02 ...

2018-05-02 17:10:11 3019

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除