自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赵英超的博客

相互学习,共同进步,如果对你有帮助,请记得点赞支持,谢谢!

  • 博客(26)
  • 资源 (18)
  • 收藏
  • 关注

原创 Neo4j简介

neo4j简单学习背景最近在一些论坛或者新闻里看到了neo4j,一种擅长处理图形的数据库。 据说非常适合做一些join关系型的查询,所以抽空也看了下相关文档,给自己做个技术储备。 过程深入学习之前,先在网上找了一下别人的一个学习文档总结,踩在别人的肩膀上总是最快,最有效的学习。 http://blog.csdn.net/gtuu0123/ar

2017-11-30 16:30:05 707

转载 HiBench算法简介

1.HiBench算法简介Hibench 包含9个典型的hadoop负载(micro benchmarks,hdfs benchmarks,web search bench marks,machine learning benchmarks和data analytics benchmarks)具体参考CDH集群安装&测试总结:第三节内容micro benchmark

2017-11-23 09:25:41 2726

原创 Spark性能测试工具

Spark 性能优化方案Spark性能测试工具•Spark性能测试基准程序Benchmark–https://github.com/intel-hadoop/HiBench•Spark性能测试与分析可视化工具–https://github.com/zhihuili/Dew性能调优的步骤1.性能测试,观察系统性能特性2.资源(CPU、Memory、Disk、Net)利用分析,寻找资源瓶颈,提高

2017-11-23 09:20:22 4623

原创 常用Benchmark

一、Benchmark简介Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance of various computer systems simply by looking at t

2017-11-23 09:00:16 5436 1

原创 Mapreduce的性能调优

这里主要针对Mapreduce的性能调优。这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.tasks & mapred.tasktracker.map.tas

2017-11-21 09:44:37 708

原创 YARN node labels

最近在做实验,实验需要进行分区域计算,网上查了资料后发现Yarn Node Labels + Capacity-Scheduler可以实现我的需求但是当任务提交到capacity-scheduler调度器的default队列时,任务卡在ACCEPTED阶段。网上看了很多发现没有这方面的信息,最后在Apache hadoop官网的官方手册上查到有以下信息prope

2017-11-16 16:20:45 1419

转载 Yarn on Docker集群方案

数据中心中的应用一般独立部署,为了保证环境隔离与方便管理,保证应用最大资源  数据中心中普遍存在如下问题:主机资源利用率低部署和扩展复杂资源隔离无法动态调整无法快速响应业务方案选型Yarn on Docker有哪些特点?彻底隔离队列为了合理利用Hadoop yarn的资源,队列间会互相抢占计算资源,造成重要任务阻塞根据部门申请的机器数

2017-11-15 19:57:34 2579

原创 YARN on Docker

搭建Hadoop Yarn on Docker一、概览Docker基于Linux Container技术整合了一堆易用的接口用于构建非常轻量级的虚拟机。Docker Container Executor(DCE)使得Yarn NodeManager服务可以将其container进程运行在Docker容器中。用户可以自定义运行Yarn container的Docker镜像。这

2017-11-15 19:55:48 2585

原创 HDP YARN MapReduce参数调优建议

HDP平台参数调优建议根据上面介绍的相关知识,我们就可以根据我们的实际情况作出相关参数的设置,当然还需要在运行测试过程中不断检验和调整。以下是hortonworks给出的配置建议: http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.1/bk_installing_manually_book/content/rpm

2017-11-15 19:43:53 2117

原创 JVM优化:生产环境参数实例及分析

java application项目(非web项目)改进前:-Xms128m-Xmx128m-XX:NewSize=64m-XX:PermSize=64m-XX:+UseConcMarkSweepGC-XX:CMSInitiatingOccupancyFraction=78-XX:ThreadStackSize=128-Xloggc:logs/gc.log-Dsun.rmi.dgc

2017-11-14 19:51:56 508

原创 Spark Shuffle性能调优

Spark Shuffle的性能调优1、Shuffle原理和运行机制回顾 2、Shuffle性能调优上面的流程中: 性能问题1:Mapper端的Cache:如果Cache设置的大小不恰当,可能产生大量磁盘的访问操作,因为要频繁地往本地磁盘写数据。 性能问题2:Reducer端的Business Logic运行的空间,如果说空间分配不够,业务逻辑运行的时候被迫把数

2017-11-14 19:47:02 550

原创 HBase最佳实践-HBase中的读性能优化策略

任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大。Full GC问题之前在一些文章里面已经讲过它的来龙去脉,主要的解决方案目前主要有

2017-11-14 19:40:40 537

原创 HBase最佳实践-HBase中的写性能优化策略

上一篇文章主要介绍了HBase读性能优化的基本套路,本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能。和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Memstore,当Memstore中数据大小达到一定阈值(128M)之后,系统会异步将Memstore中数据flush到HDFS形成小文件。HBase数据写入通常会遇到两类问题

2017-11-14 19:37:55 764

原创 Spark性能调优

前言继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是

2017-11-14 19:31:49 438

转载 spark yarn 参数分析

按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。下图是yarn-cluster模式的作业执行图,图片来源于网络:关于Sp

2017-11-14 19:16:58 1441

原创 Spark性能相关参数配置-大全

Spark性能相关参数配置¶http://spark-config.readthedocs.io/en/latest/#概述随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configuration.html 中提供了这些可配置参数中相当大一部分的

2017-11-14 16:01:01 1529

原创 IDEA 禁止自动导入引用包 取消Import包

IDEA 禁止自动导入引用包 取消Import包拷贝一小段代码,或者我就是不想引入拷贝来的包,我该怎么取消掉idea的自动导入import包呢?找到下面这个选项,把这个fly取消掉首页新随笔联系管理IDEA 禁止自动导入引用包 取消Import包

2017-11-14 10:12:40 11460 2

原创 storm详解与调优

Storm 性能优化 原文地址:http://www.jianshu.com/p/f645eb7944b0目录场景假设调优步骤和方法Storm 的部分特性Storm 并行度Storm 消息机制Storm UI 解析性能优化场景假设在介绍 Storm 的性能调优方法之前,假设一个场景:项目组部署了3台机器,计划运行且仅运行 Storm(1.0.1) + K

2017-11-12 14:32:34 2031

原创 Storm详解

1、Storm并行度相关的概念Storm集群有很多节点,按照类型分为nimbus(主节点)、supervisor(从节点),在conf/storm.yaml中配置了一个supervisor,有多个槽(supervisor.slots.ports),每个槽就是一个JVM,就是一个worker(一个节点,运行一个worker),在每个worker里面可以运行多个线程叫做executor,在exec

2017-11-12 13:57:33 1257

原创 YARN FairScheduler任务调度

Yarn提供可插拔的调度的算法,用于解决application之间资源竞争问题. 根据当前多租户多应用类型的应用场景,我们使用FairSchedule资源调度算法,来管理我们用户提交的队列、队列资源竞争.主要涉及的配置文件有yarn-site.xml、fair-scheduler.xmlyarn-site.xml只配置了几个觉得必须的项.property>

2017-11-07 15:30:12 642

原创 Yarn scheduler Capacity调度器概念以及配置

试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个?如果你存在上述的困惑,可以多了解一些yarn的资源调度器。在Yarn框架中,调度器是一块很重要的内容。有了合适的调度规则,就可

2017-11-07 15:27:47 1363

原创 Spark程序的几个优化点

虽然spark已经提供了大量简单易用的API,但要想编写出高性能的spark应用,必须要对整体框架有一定的了解,对于Spark初学者来说是比较困难的。针对这个这个问题,其实在spark1.6中,已经加入了dataset,官方已经对其进行了一系列的优化,用户可以将rdd转化为dataset操作,减少学习成本。不过目前(1.6版本)依旧存在一些bug。下文讲解了使用RDD编程时,常用的

2017-11-07 15:19:23 428

原创 spark中遇到的数据倾斜问题

一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey,groupByKey,join等操作。数据问题key本身分布不均匀(包括大量的key为空)key的设置不合理spark使用问题shuffle时的并发

2017-11-07 15:17:43 643

原创 Spark数据本地性

一. 概述Spark中的数据本地性分为两种executor 层面的数据本地性task 层面的数据本地性在两种本地性中,task层面的数据本地性是由Spark本身决定的,而executor的分发则是Cluter Manager控制的,因此下文主要描述在不同Cluster Manager中的executor分发机制。Spark Standalone Stan

2017-11-07 15:15:51 1329

原创 spark 工作目录及数据本地化配置

执行spark-sql时,查询数据量超过1.7亿行,数据量大小38G,出现系统盘占用突然变高的情况检查为 /tmp 目录下,spark生成的临时目录占用了大量的磁盘空间,生成的spark临时文件超过15G了。解决方案为:1、删除 /tmp/spark* 的文件rm -rf  /tmp/spark* 2、修改spark执行时临时目录的配

2017-11-03 18:07:58 3127

原创 spark常见错误及调优

一. 运维1. Master挂掉,standby重启也失效Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成spark ui,内存不足自然会OOM,可以在master的运行日志中看到,通过HA启动的master自然也会因为这个原因失败。解决增加Master的内存占用,在M

2017-11-03 18:00:55 5173

GitkrakenCrack.zip

GitkrakenCrack.zip

2023-04-04

activiti 6.0汉化包,绝对可用

activiti 6.0汉化包,绝对可用.代码集成去除lib jar包

2018-11-29

ReceiverCleanupUtility

一、卸载Citrix Receiver两种办法 1、打开控制面板--程序和功能--卸载程序--Citrix Receive,进行卸载 2、通过官方提供的专业卸载工具进行卸载ReceiverCleanupUtility

2018-09-20

StarUMLv3.0.2 安装文件 破解补丁 集合

StarUMLv3.0.2 安装文件 破解补丁 集合 欢迎使用,支持正版!请勿商业使用!

2018-08-24

StarUML Setup 3.0.2

StarUML Setup 3.0.2 很好用哦!推荐! 破解文件见另一个地址!

2018-08-24

自动化运维工具 Ansible 详细部署

自动化运维工具Ansible详细部署

2016-07-07

SQL Delta 6.2.2.2066 crack 破解版

SQL Delta 6.2.2.2066 crack 破解版

2016-07-07

软件加密 打包 自动化安装 makeself

软件加密 打包 自动化安装 makeself

2015-12-30

bunifyDeploy

比Ansible更吊的自动化运维工具,自动化统一安装部署_自动化部署

2015-12-30

清华大学ARM培训教材.pdf

清华大学ARM培训教材.pdf 绝对有用

2013-01-09

Linux系统命令及其使用详解

Linux系统命令及其使用详解 Linux系统命令快速上升

2013-01-09

android手机wifi热点通信代码

android手机wifi热点通信代码 初学者必须的资料

2013-01-09

HTC__G11刷机教程

HTC__G11刷机教程 初学者必须文档

2013-01-09

linux-超级终端

linux-超级终端 linux开发必须工具

2013-01-09

十个外贸超实用小工具网址.

十个外贸超实用小工具网址. 希望对大家有用 很不错哦

2013-01-04

GUI中文详细手册

GUI中文详细手册是GUI开发必备资料,很详细

2011-10-30

GUI编译通过内核

GUI编译通过内核,FPGA、ARM.....开发资料,界面很好很强大

2011-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除