2017年11月_ZhaoYingChao88

12月 11月 10月 06月 05月 04月 03月 01月

原创 Neo4j简介

neo4j简单学习背景最近在一些论坛或者新闻里看到了neo4j，一种擅长处理图形的数据库。据说非常适合做一些join关系型的查询，所以抽空也看了下相关文档，给自己做个技术储备。过程深入学习之前，先在网上找了一下别人的一个学习文档总结，踩在别人的肩膀上总是最快，最有效的学习。 http://blog.csdn.net/gtuu0123/ar

2017-11-30 16:30:05 707

转载 HiBench算法简介

1.HiBench算法简介Hibench 包含9个典型的hadoop负载（micro benchmarks,hdfs benchmarks,web search bench marks,machine learning benchmarks和data analytics benchmarks）具体参考CDH集群安装&测试总结：第三节内容micro benchmark

2017-11-23 09:25:41 2726

原创 Spark性能测试工具

Spark 性能优化方案Spark性能测试工具•Spark性能测试基准程序Benchmark–https://github.com/intel-hadoop/HiBench•Spark性能测试与分析可视化工具–https://github.com/zhihuili/Dew性能调优的步骤1.性能测试，观察系统性能特性2.资源（CPU、Memory、Disk、Net）利用分析，寻找资源瓶颈，提高

2017-11-23 09:20:22 4623

原创常用Benchmark

一、Benchmark简介Benchmark是一个评价方式，在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance of various computer systems simply by looking at t

2017-11-23 09:00:16 5436 1

原创 Mapreduce的性能调优

这里主要针对Mapreduce的性能调优。这里主要涉及的参数包括：HDFS：dfs.block.sizeMapredure：io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.tasks & mapred.tasktracker.map.tas

2017-11-21 09:44:37 708

原创 YARN node labels

最近在做实验，实验需要进行分区域计算，网上查了资料后发现Yarn Node Labels + Capacity-Scheduler可以实现我的需求但是当任务提交到capacity-scheduler调度器的default队列时，任务卡在ACCEPTED阶段。网上看了很多发现没有这方面的信息，最后在Apache hadoop官网的官方手册上查到有以下信息prope

2017-11-16 16:20:45 1419

转载 Yarn on Docker集群方案

数据中心中的应用一般独立部署，为了保证环境隔离与方便管理，保证应用最大资源数据中心中普遍存在如下问题：主机资源利用率低部署和扩展复杂资源隔离无法动态调整无法快速响应业务方案选型Yarn on Docker有哪些特点？彻底隔离队列为了合理利用Hadoop yarn的资源，队列间会互相抢占计算资源，造成重要任务阻塞根据部门申请的机器数

2017-11-15 19:57:34 2579

原创 YARN on Docker

搭建Hadoop Yarn on Docker一、概览Docker基于Linux Container技术整合了一堆易用的接口用于构建非常轻量级的虚拟机。Docker Container Executor（DCE）使得Yarn NodeManager服务可以将其container进程运行在Docker容器中。用户可以自定义运行Yarn container的Docker镜像。这

2017-11-15 19:55:48 2585

原创 HDP YARN MapReduce参数调优建议

HDP平台参数调优建议根据上面介绍的相关知识，我们就可以根据我们的实际情况作出相关参数的设置，当然还需要在运行测试过程中不断检验和调整。以下是hortonworks给出的配置建议： http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.1/bk_installing_manually_book/content/rpm

2017-11-15 19:43:53 2117

原创 JVM优化:生产环境参数实例及分析

java application项目（非web项目）改进前：-Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CMSInitiatingOccupancyFraction=78-XX:ThreadStackSize=128-Xloggc:logs/gc.log-Dsun.rmi.dgc

2017-11-14 19:51:56 508

原创 Spark Shuffle性能调优

Spark Shuffle的性能调优1、Shuffle原理和运行机制回顾 2、Shuffle性能调优上面的流程中：性能问题1：Mapper端的Cache：如果Cache设置的大小不恰当，可能产生大量磁盘的访问操作，因为要频繁地往本地磁盘写数据。性能问题2：Reducer端的Business Logic运行的空间，如果说空间分配不够，业务逻辑运行的时候被迫把数

2017-11-14 19:47:02 550

原创 HBase最佳实践－HBase中的读性能优化策略

任何系统都会有各种各样的问题，有些是系统本身设计问题，有些却是使用姿势问题。HBase也一样，在真实生产线上大家或多或少都会遇到很多问题，有些是HBase还需要完善的，有些是我们确实对它了解太少。总结起来，大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大。Full GC问题之前在一些文章里面已经讲过它的来龙去脉，主要的解决方案目前主要有

2017-11-14 19:40:40 537

原创 HBase最佳实践－HBase中的写性能优化策略

上一篇文章主要介绍了HBase读性能优化的基本套路，本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能。和读相比，HBase写数据流程倒是显得很简单：数据先顺序写入HLog，再写入对应的缓存Memstore，当Memstore中数据大小达到一定阈值（128M）之后，系统会异步将Memstore中数据flush到HDFS形成小文件。HBase数据写入通常会遇到两类问题

2017-11-14 19:37:55 764

原创 Spark性能调优

前言继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是

2017-11-14 19:31:49 438

转载 spark yarn 参数分析

按照Spark应用程序中的driver分布方式不同，Spark on YARN有两种模式： yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业，每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。下图是yarn-cluster模式的作业执行图，图片来源于网络：关于Sp

2017-11-14 19:16:58 1441

原创 Spark性能相关参数配置-大全

Spark性能相关参数配置¶http://spark-config.readthedocs.io/en/latest/#概述随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configuration.html 中提供了这些可配置参数中相当大一部分的

2017-11-14 16:01:01 1529

原创 IDEA 禁止自动导入引用包取消Import包

IDEA 禁止自动导入引用包取消Import包拷贝一小段代码，或者我就是不想引入拷贝来的包，我该怎么取消掉idea的自动导入import包呢？找到下面这个选项，把这个fly取消掉首页新随笔联系管理IDEA 禁止自动导入引用包取消Import包

2017-11-14 10:12:40 11460 2

原创 storm详解与调优

Storm 性能优化原文地址：http://www.jianshu.com/p/f645eb7944b0目录场景假设调优步骤和方法Storm 的部分特性Storm 并行度Storm 消息机制Storm UI 解析性能优化场景假设在介绍 Storm 的性能调优方法之前，假设一个场景：项目组部署了3台机器，计划运行且仅运行 Storm(1.0.1) + K

2017-11-12 14:32:34 2031

原创 Storm详解

1、Storm并行度相关的概念Storm集群有很多节点，按照类型分为nimbus（主节点）、supervisor（从节点），在conf/storm.yaml中配置了一个supervisor,有多个槽（supervisor.slots.ports），每个槽就是一个JVM，就是一个worker(一个节点，运行一个worker)，在每个worker里面可以运行多个线程叫做executor，在exec

2017-11-12 13:57:33 1257

原创 YARN FairScheduler任务调度

Yarn提供可插拔的调度的算法，用于解决application之间资源竞争问题. 根据当前多租户多应用类型的应用场景，我们使用FairSchedule资源调度算法，来管理我们用户提交的队列、队列资源竞争.主要涉及的配置文件有yarn-site.xml、fair-scheduler.xmlyarn-site.xml只配置了几个觉得必须的项.property>

2017-11-07 15:30:12 642

原创 Yarn scheduler Capacity调度器概念以及配置

试想一下，你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表，B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景，这个时候到底如何分配资源满足这两个任务呢？是先执行A的任务，再执行B的任务，还是同时跑两个？如果你存在上述的困惑，可以多了解一些yarn的资源调度器。在Yarn框架中，调度器是一块很重要的内容。有了合适的调度规则，就可

2017-11-07 15:27:47 1363

原创 Spark程序的几个优化点

虽然spark已经提供了大量简单易用的API，但要想编写出高性能的spark应用，必须要对整体框架有一定的了解，对于Spark初学者来说是比较困难的。针对这个这个问题，其实在spark1.6中，已经加入了dataset，官方已经对其进行了一系列的优化，用户可以将rdd转化为dataset操作，减少学习成本。不过目前(1.6版本)依旧存在一些bug。下文讲解了使用RDD编程时，常用的

2017-11-07 15:19:23 428

原创 spark中遇到的数据倾斜问题

一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。二. 数据倾斜的原因常见于各种shuffle操作，例如reduceByKey,groupByKey,join等操作。数据问题key本身分布不均匀(包括大量的key为空)key的设置不合理spark使用问题shuffle时的并发

2017-11-07 15:17:43 643

原创 Spark数据本地性

一. 概述Spark中的数据本地性分为两种executor 层面的数据本地性task 层面的数据本地性在两种本地性中，task层面的数据本地性是由Spark本身决定的，而executor的分发则是Cluter Manager控制的，因此下文主要描述在不同Cluster Manager中的executor分发机制。Spark Standalone Stan

2017-11-07 15:15:51 1329

原创 spark 工作目录及数据本地化配置

执行spark-sql时，查询数据量超过1.7亿行，数据量大小38G，出现系统盘占用突然变高的情况检查为 /tmp 目录下，spark生成的临时目录占用了大量的磁盘空间，生成的spark临时文件超过15G了。解决方案为：1、删除 /tmp/spark* 的文件rm -rf /tmp/spark* 2、修改spark执行时临时目录的配

2017-11-03 18:07:58 3127

原创 spark常见错误及调优

一. 运维1. Master挂掉,standby重启也失效Master默认使用512M内存，当集群中运行的任务特别多时，就会挂掉，原因是master会读取每个task的event log日志去生成spark ui，内存不足自然会OOM，可以在master的运行日志中看到，通过HA启动的master自然也会因为这个原因失败。解决增加Master的内存占用，在M

2017-11-03 18:00:55 5173