赵英超的博客

相互学习,共同进步

Neo4j简介

neo4j简单学习 背景 最近在一些论坛或者新闻里看到了neo4j,一种擅长处理图形的数据库。 据说非常适合做一些join关系型的查询,所以抽空也看了下相关文档,给自己做个技术储备。   过程 深入学习之前,先在网上找了一下别人的一个学习文档总结,踩在别人的肩膀上总是...

2017-11-30 16:30:05

阅读数:144

评论数:0

HiBench算法简介

1.HiBench算法简介 Hibench 包含9个典型的hadoop负载(micro benchmarks,hdfs benchmarks,web search bench marks,machine learning benchmarks和data analytics benchmark...

2017-11-23 09:25:41

阅读数:449

评论数:0

Spark性能测试工具

Spark 性能优化方案Spark性能测试工具 •Spark性能测试基准程序Benchmark–https://github.com/intel-hadoop/HiBench•Spark性能测试与分析可视化工具–https://github.com/zhihuili/Dew性能调优的步骤 1.性...

2017-11-23 09:20:22

阅读数:431

评论数:0

常用Benchmark

一、Benchmark简介 Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance o...

2017-11-23 09:00:16

阅读数:538

评论数:0

Mapreduce的性能调优

这里主要针对Mapreduce的性能调优。 这里主要涉及的参数包括: HDFS: dfs.block.size Mapredure: io.sort.mb io.sort.spill.percent mapred.local.dir...

2017-11-21 09:44:37

阅读数:100

评论数:0

YARN node labels

最近在做实验,实验需要进行分区域计算,网上查了资料后发现Yarn Node Labels + Capacity-Scheduler可以实现我的需求 但是当任务提交到capacity-scheduler调度器的default队列时,任务卡在ACCEPTED阶段。 网上看了很多发现没有这方...

2017-11-16 16:20:45

阅读数:203

评论数:0

Yarn on Docker集群方案

数据中心中的应用一般独立部署,为了保证环境隔离与方便管理,保证应用最大资源  数据中心中普遍存在如下问题: 主机资源利用率低 部署和扩展复杂 资源隔离无法动态调整 无法快速响应业务 方案选型 Yarn on Docker有哪些特点? 彻底隔离队列 为了合...

2017-11-15 19:57:34

阅读数:219

评论数:0

YARN on Docker

搭建Hadoop Yarn on Docker 一、概览 Docker基于Linux Container技术整合了一堆易用的接口用于构建非常轻量级的虚拟机。Docker Container Executor(DCE)使得Yarn NodeManager服务可以将其contain...

2017-11-15 19:55:48

阅读数:154

评论数:0

HDP YARN MapReduce参数调优建议

HDP平台参数调优建议 根据上面介绍的相关知识,我们就可以根据我们的实际情况作出相关参数的设置,当然还需要在运行测试过程中不断检验和调整。 以下是hortonworks给出的配置建议:  http://docs.hortonworks.com/HDPDocuments/HDP...

2017-11-15 19:43:53

阅读数:456

评论数:0

JVM优化:生产环境参数实例及分析

java application项目(非web项目) 改进前: -Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CMSInitiatingOccupancyFraction=78-XX:...

2017-11-14 19:51:56

阅读数:118

评论数:0

Spark Shuffle性能调优

Spark Shuffle的性能调优 1、Shuffle原理和运行机制回顾  2、Shuffle性能调优 上面的流程中:  性能问题1:Mapper端的Cache:如果Cache设置的大小不恰当,可能产生大量磁盘的访问操作,因为要频繁地往本地磁盘写数据。  性能问题2:R...

2017-11-14 19:47:02

阅读数:127

评论数:0

HBase最佳实践-HBase中的读性能优化策略

任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较...

2017-11-14 19:40:40

阅读数:180

评论数:0

HBase最佳实践-HBase中的写性能优化策略

上一篇文章主要介绍了HBase读性能优化的基本套路,本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能。和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Memstore,当Memstore中数据大小达到一定阈值(128M)之后,系统会异步将Me...

2017-11-14 19:37:55

阅读数:223

评论数:0

Spark性能调优

前言 继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇...

2017-11-14 19:31:49

阅读数:177

评论数:0

spark yarn 参数分析

按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。 当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面...

2017-11-14 19:16:58

阅读数:258

评论数:0

Spark性能相关参数配置-大全

Spark性能相关参数配置¶ http://spark-config.readthedocs.io/en/latest/# 概述 随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org...

2017-11-14 16:01:01

阅读数:383

评论数:0

IDEA 禁止自动导入引用包 取消Import包

IDEA 禁止自动导入引用包 取消Import包 拷贝一小段代码,或者我就是不想引入拷贝来的包,我该怎么取消掉idea的自动导入import包呢? 找到下面这个选项,把这个fly取消掉 首页 新随笔 联系 ...

2017-11-14 10:12:40

阅读数:758

评论数:0

storm详解与调优

Storm 性能优化  原文地址:http://www.jianshu.com/p/f645eb7944b0 目录 场景假设调优步骤和方法Storm 的部分特性Storm 并行度Storm 消息机制Storm UI 解析性能优化 场景假设 在介绍 Storm 的性能调...

2017-11-12 14:32:34

阅读数:461

评论数:0

Storm详解

1、Storm并行度相关的概念 Storm集群有很多节点,按照类型分为nimbus(主节点)、supervisor(从节点),在conf/storm.yaml中配置了一个supervisor,有多个槽(supervisor.slots.ports),每个槽就是一个JVM,就是一个worker(一...

2017-11-12 13:57:33

阅读数:182

评论数:0

YARN FairScheduler任务调度

Yarn提供可插拔的调度的算法,用于解决application之间资源竞争问题.  根据当前多租户多应用类型的应用场景,我们使用FairSchedule资源调度算法,来管理我们用户提交的队列、队列资源竞争. 主要涉及的配置文件有yarn-site.xml、fair-scheduler.xm...

2017-11-07 15:30:12

阅读数:141

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭