cache007-CSDN博客

转载 Spark Yarn-cluster 与 Yarn-client

摘要　　在Spark中，有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上，通常Yarn-cluster适用于生产环境，而Yarn-Cluster更适用于交互，调试模式，以下是它们的区别　　Spark插拨式资源管理　　Spark支持Yarn,Mesos,Standalone三种集群部署模式，它们的共同点：Master服务(Yarn Resourc

2017-01-04 16:49:55 745

转载 Hadoop YARN中内存和CPU两种资源的调度和隔离

Hadoop YARN同时支持内存和CPU两种资源的调度（默认只支持内存，如果想进一步调度CPU，需要自己进行一些配置），本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中，资源管理由ResourceManager和NodeManager共同完成，其中，ResourceManager中的调度器负责资源的分配，而NodeManager则负责资源的供给和隔离。ResourceM

2017-01-04 16:22:20 652

转载 HDFS 原理、架构与特性介绍

本文主要讲述 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制1：当前HDFS架构详尽分析HDFS架构1、NameNode2、DataNode3、Sencondary NameNode数据存储细节NameNode 目录结构Namenode 的目录结构： ${ dfs

2016-12-30 09:35:44 734

转载【Hadoop】HDFS的运行原理

简介HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。HDFS有很多特点： ① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。

2016-12-30 09:34:43 451

转载 Flink on Yarn部署

环境信息：Hadoop版本：2.6.0Flink版本：1.1.2 快速部署Flink on Yarn环境：比如启动一个有4个TaskManager（每个节点都有4GB堆内存）的Yarn会话：1. 下载Flink的软件包，如flink-1.1.2-bin-hadoop26-scala_2.11.tgz（因为我的Hadoop集群版本为2.6.0

2016-12-21 10:47:00 1253

转载 storm on yarn 部署

1. 环境介绍1.1 节点与服务映射关系iphost服务192.168.40.132masterNamenode、NodeManager、DataNode、zookeeper192.168.40.133slave1ResurceManager、NodeManager、DataNode

2016-12-08 16:10:10 573

转载 hbase 0.98.9客户端的两个参数调优

公司的项目有用到hbase数据库，而我正好负责hbase客户端的接口代码编写工作；实际就是为hbase中的各个表，提供增，删，改，查的功能。前段时间，同事对接口进行测试时，跟我反馈：在使用visualVM在查看线程运行状态时，发现hbase客户端的线程很多，具体干什么不清楚，但其中很多线程处于等待状态。起初，没时间就没在意。这段时间，功能差不多了，就也用visualvm来查看线程状态。

2016-12-05 15:32:50 817

转载 apache kafka系列之kafka.common.ConsumerRebalanceFailedException异常解决办法

kafka.common.ConsumerRebalanceFailedException :log-push-record-consumer-group_mobile-pushremind02.lf.xxx.com-1399456594831-99f15e63 can't rebalance after 3 retriesat kafka.consumer.ZookeeperConsumer

2016-12-05 14:57:30 805

转载 Storm短暂的Worker脑裂之旅

Storm中supervisor控制着worker的生命周期，负责worker的启停。前端时间开发类似Storm中这样的一套系统时(worker和storm差别很大)脑裂的问题，supervisor负责启动一个worker，而最后上机器ps看到却有两个相同的worker，这两个相同的worker反复重启导致一堆奇怪的现象。Supervisor与WorkerStorm中，su

2016-12-02 15:56:14 718

转载 yarn架构及 client提交任务过程讲解

先看个yarn的整体架构Client向RM提交任务的过程大致分为七步，先上图在解释：1. Client向RM发出请求2. RM返回一个ApplicationID作为回应3. Client向RM回应Application Submission Context（ASC）。ASC包括ApplicationID、user、queue，以及其他

2016-12-01 16:14:56 3128

转载 Hadoop 2.4.0和YARN的安装过程

摘要: Hadoop 2.2，2.3，2.4版本的安装都差不多。为了运行一个Hadoop程序，花了大半天部署环境，在这里特此记录安装过程，让以后少走弯路。Hadoop 2.x新特性将Mapreduce框架升级到Apache YARN，YARN将Map reduce工作区分为两个：JobTracker组件：实现资源管理和任务JOB；计划/监视组件：划分到单独应用中。使用Ma

2016-12-01 15:59:44 405

转载 yarn描述

问题导读：1、什么是yarn？2、Yarn 和MapReduce相比，它有什么特殊作用？背景Yarn是一个分布式的资源管理系统，用以提高分布式的集群环境下的资源利用率，这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer们还可以周期性的在已有的代码上进行修

2016-12-01 15:56:47 374

转载 Spark容错机制

引入一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源。因此，Spark选择记录更新的方式。但是，如果更新粒度太细太多，那么记录更新成本也不低。因此，RDD只支持粗粒度转换，即只记录单个块上执行的单个操作，然后

2016-10-18 11:47:29 411

转载利用多写Redis实现分布式锁原理与实现分析

在我写这篇文章的时候，其实我还是挺纠结的，因为我这个方案本身也是雕虫小技拿出来显眼肯定会被贻笑大方，但是我最终还是拿出来与大家分享，我本着学习的态度和精神，希望大家能够给与我指导和改进方案。一、关于分布式锁关于分布式锁，可能绝大部分人都会或多或少涉及到。我举二个例子：场景一：从前端界面发起一笔支付请求，如果前端没有做防重处理，那么可能在某一个时刻会有二笔一样的单

2016-10-08 08:57:14 1302

转载屏蔽storm ui的kill功能

今天有个storm的topology被人kill掉了，但是找不到是谁做的，storm的ui有kill topology的功能，但是没有权限验证，这样就导致知道ui地址的任何人都可以kill掉topology，比较危险，考虑把这个action disable掉。有两种方法：1.前端增加nginx，做location分析ui页面，对应kill的button，html中的acti

2016-09-08 15:58:06 682

转载 protobuf-2.5.0.tar.gz的下载与安装

1.下载 hadoop使用protocol buffer进行通信，需要下载和安装 protobuf-2.5.0.tar.gz。由于现在 protobuf-2.5.0.tar.gz已经无法在官网 https://code.google.com/p/protobuf/downloads/list中下载了，本人将 protobuf-2.5.0.tar.gz上传到百度云盘供大家下载，地址

2016-08-12 14:18:48 3896

该系列Blog的内容主体主要源自于Protocol Buffer的官方文档，而代码示例则抽取于当前正在开发的一个公司内部项目的Demo。这样做的目的主要在于不仅可以保持Google文档的良好风格和系统性，同时再结合一些比较实用和通用的用例，这样就更加便于公司内部的培训，以及和广大网友的技术交流。需要说明的是，Blog的内容并非line by line的翻译，其中包含一些经验性总结，与此同时，对于一

2016-08-12 11:14:17 365

转载 Git 常用命令大全

Git 是一个很强大的分布式版本控制系统。它不但适用于管理大型开源软件的源代码，管理私人的文档和源代码也有很多优势。Git常用操作命令：1) 远程仓库相关命令检出仓库：$ git clone git://github.com/jquery/jquery.git查看远程仓库：$ git remote -v添加远程仓库：$ git remote add

2016-08-04 16:08:25 363

转载 Apache Flink流作业提交流程分析

提交流程调用的关键方法链用户编写的程序逻辑需要提交给Flink才能得到执行。本文来探讨一下客户程序如何提交给Flink。鉴于用户将自己利用Flink的API编写的逻辑打成相应的应用程序包（比如Jar）然后提交到一个目标Flink集群上去运行是比较主流的使用场景，因此我们的分析也基于这一场景进行。Flink的API针对不同的执行环境有不同的Environment对象，这里我们主

2016-07-29 16:40:48 805

转载 Flink 原理与实现：如何生成 StreamGraph

继上文Flink 原理与实现：架构和拓扑概览中介绍了Flink的四层执行图模型，本文将主要介绍 Flink 是如何根据用户用Stream API编写的程序，构造出一个代表拓扑结构的StreamGraph的。注：本文比较偏源码分析，所有代码都是基于 flink-1.0.x 版本，建议在阅读本文前先对Stream API有个了解，详见官方文档。StreamGraph 相关的代码主要

2016-07-29 16:17:55 1063

转载 Flink 原理与实现：架构和拓扑概览

要了解一个系统，一般都是从架构开始。我们关心的问题是：系统部署成功后各个节点都启动了哪些服务，各个服务之间又是怎么交互和协调的。下方是 Flink 集群启动后架构图。当 Flink 集群启动后，首先会启动一个 JobManger 和一个或多个的 TaskManager。由 Client 提交任务给 JobManager，JobManager 再调度任务到各个 TaskManager

2016-07-29 15:03:13 3180

转载深入理解Linux修改hostname

当我觉得对Linux系统下修改hostname已经非常熟悉的时候，今天碰到了几个个问题，这几个问题给我好好上了一课，很多知识点，当你觉得你已经掌握的时候，其实你了解的还只是皮毛。技术活，切勿浅尝则止！实验环境：Red Hat Enterprise Linux Server release 5.7 (Tikanga) ，其它版本Linux可能有所不同。请以实际环境为准。其实我多次修改

2016-07-26 17:23:14 355

转载使用JMAP dump及分析dump文件

查看整个JVM内存状态 jmap -heap [pid]要注意的是在使用CMS GC 情况下，jmap -heap的执行有可能会导致JAVA 进程挂起查看JVM堆中对象详细占用情况jmap -histo [pid]导出整个JVM 中内存信息jmap -dump:format=b,file=文件名 [pid]jhat是sun 1.6及以上版本中自带的一个用于分

2016-07-25 10:31:03 3336

转载 Flink 原理与实现：Window 机制

Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层引擎是一个流式引擎，在上面实现了流处理和批处理。而窗口（window）就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制，这是我认为的 Flink 最大的亮点之一（其他的亮点包括消息乱序处理，和 checkpoint 机制）。本文我们将介绍流式处理中的窗口概念，介绍 F

2016-07-19 16:19:18 1106

转载 Apache Flink：详细入门

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时（Flink Runtime），提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为他们它们所提供的SLA是完全不相同的：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理，所以在实现的时候通常

2016-07-18 14:59:34 5553

转载 mybatis简单运用（基于Annotation）

本文主要介绍了如何使用mybatis进行简单的数据库操作。本文使用的是mybatis3.05。1.创建数据库表（User表）CREATE TABLE User (userId bigint(20) NOT NULL AUTO_INCREMENT ,userName varchar(30) CHARACTER SET utf8 COLLATE utf8_general_ci NO

2016-07-14 17:28:37 460

转载通过Java/JMX得到full GC次数

今天有个同事问如何能通过JMX获取到某个Java进程的full GC次数：引用hi,问个问题，怎们在java中获取到full gc的次数呢？我现在用jmx的那个得到了gc次数，不过不能细化出来full gc的次数 Java代码 for (final GarbageCollectorMXBean garbageCollector

2016-07-11 10:20:34 6691

转载深入ASM源码之ClassReader、ClassVisitor、ClassWriter

概述ASM是Java中比较流行的用来读写字节码的类库，用来基于字节码层面对代码进行分析和转换。在读写的过程中可以加入自定义的逻辑以增强或修改原来已编译好的字节码，比如CGLIB用它来实现动态代理。ASM被设计用于在运行时对Java类进行生成和转换，当然也包括离线处理。ASM短小精悍、且速度很快，从而避免在运行时动态生成字节码或转换时对程序速度的影响，又因为它体积小巧，可以在很多内存受限的环境

2016-07-08 09:22:03 2064

转载 Java-解压和打包Jar

解压和打包Jar本文地址：http:="" blog.csdn.net="" caroline_wendy简介1. 压缩包：jar cvf filename.jar a.class b.class: 压缩指定文件；jar cvf weibosdkcore.jar *: 全部压缩；2. 解压包：jar xvf test.jar详解jar命令有生成、查看、更新、解开jar包

2016-06-29 09:23:26 2474

转载 java jar 打包命令

打包根目录下面的文件： Java代码 jar cvf filename.jar a.class b.class Java代码 "color: #0000ff;">jar cvf filename.jar a.class b.class ---------------------------------------

2016-06-29 09:22:48 2108

转载 Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密

背景：整个Spark Streaming是按照Batch Duractions划分Job的。但是很多时候我们需要算过去的一天甚至一周的数据，这个时候不可避免的要进行状态管理，而Spark Streaming每个Batch Duractions都会产生一个Job，Job里面都是RDD，所以此时面临的问题就是怎么对状态进行维护？这个时候就需要借助updateStateByKey和mapWit

2016-06-18 22:32:16 664

转载 Flink中的一些核心概念

程序和数据流Flink程序的基本构建块是streams和transformations（注意，DataSet在内部也是一个stream）。一个stream可以看成一个中间结果，而一个transformations是以一个或多个stream作为输入的某种operation，该operation利用这些stream进行计算从而产生一个或多个result stream。在运行时，Fl

2016-06-18 19:33:04 785

转载 Flink 原理与实现：Window 机制

Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层引擎是一个流式引擎，在上面实现了流处理和批处理。而窗口（window）就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制，这是我认为的 Flink 最大的亮点之一（其他的亮点包括消息乱序处理，和 checkpoint 机制）。本文我们将介绍流式处理中的窗口概念，介绍 F

2016-06-18 19:30:33 8708 1

转载 Twitter开源大数据实时分析系统Heron：Heron架构

Heron架构Heron是Apache Storm的一个直接继承者。从架构角度来看，它与Storm截然不同，但是从API的角度看它是完全向后兼容的。下面的章节指明了Heron和Storm的区别，描述了Heron背后的设计目标，并解释了其架构的主要组件。代码库Heron代码库的详细指南在这里。拓扑你可以认为一个Heron集群是一种管理流式处理实体（称作拓

2016-05-27 11:34:53 1048

转载 Twitter Heron的深入解析(与Storm的比较)

2015年6月1号， Twitter 对外宣讲了他们的Heron系统，从ppt和论文中，看起来完爆storm。昨天，抽空把论文，仔细读了一遍，把个人笔记和心得分享一下：最后总结：Heron更适合超大规模的机器，超过1000台机器以上的集群。在稳定性上有更优异的表现，在性能上，表现一般甚至稍弱一些，在资源使用上，可以和其他编程框架共享集群资源，但topology级别会更浪费

2016-05-27 11:10:35 1564

转载新一代大数据处理引擎 Apache Flink

大数据计算引擎的发展这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像 Flink，也就在这个时候默默的发展着。在国外一些社区，有很多人将大数据的计算

2016-05-12 17:27:41 3835 1

转载 Flink中的一些核心概念

在源码解读前我们有必要先了解一下Flink的一些基本的但却很关键的概念。这有助于帮助我们理解整个架构。在翻译文档的同时，对于有争议的或者不是非常适合用中文表达的地方，我尽量保留原始英文单词。程序和数据流Flink程序的基本构建块是streams和transformations（注意，DataSet在内部也是一个stream）。一个stream可以看成一个中间结果，而一个tran

2016-05-12 17:25:36 3354

转载流式统计的几个难点

流式统计听着挺容易的一个事情，说到底不就是数数嘛，每个告警系统里基本上都有一个简单的流式统计模块。但是当时基于storm做的时候，这几个问题还是困扰了我很长时间的。没有用过spark streaming/flink，不知道下面这些问题在spark streaming/flink里是不是都已经解决得很好了。时间窗口切分问题做流式统计首要的问题是把一个时间窗口内的数据统计到一起。问题是

2016-05-11 15:21:46 5318

转载基于HBase的消息队列 HQueue

1. HQueue简介HQueue是一淘搜索网页抓取离线系统团队基于HBase开发的一套分布式、持久化消息队列。它利用HTable存储消息数据，借助HBase Coprocessor将原始的KeyValue数据封装成消息数据格式进行存储，并基于HBase Client API封装了HQueue Client API用于消息存取。HQueue可以有效使用在需要存储时间序列数据、作

2016-05-04 11:25:36 1699

转载 Spark Streaming介绍与基本执行过程

Spark Streaming作为Spark上的四大子框架之一，肩负着实时流计算的重大责任而相对于另外一个当下十分流行的实时流计算处理框架Storm，Spark Streaming有何优点？又有何不足呢？首先，对于Storm实时流处理惊人的低延迟性，Spark Streaming的不足很明显 Storm官方说的最低延迟可以使多少毫秒级别的而Spark Streaming只能做

2016-05-03 19:24:59 2676

基于flink的平台化构建以及运维优化

空空如也