zhan8610189-CSDN博客

原创 Ambari深入学习（III）－开源使用及其改进思考

Ambari采用的不是一个新的思想和架构，也不是完成了软件的新的革命，而是充分利用了一些已有的优秀开源软件，巧妙地把它们结合起来，使其在分布式环境中做到了集群式服务管理能力、监控能力、展示能力。这些优秀开源软件有：在agent端，采用了puppet管理节点;在Web端，采用了ember.js作为前端的MVC构架和NodeJS相关工具，用handlebars.js作为页面渲染引擎，在C...

2013-09-04 23:20:47 329

原创 Ambari深入学习（II）－实现细节

在第一节中，我们简单讲了一下Ambari的系统架构。我们这一节主要分析Ambari的源代码，总览Ambari的具体实现方式及其工作细节。一、Ambari-Server启动Ambari-Server是一个WEB Server，提供统一的REST API接口，同时向web和agent开放了两个不同的端口（默认前者是8080, 后者是8440或者8441）。它是由Jetty Server...

2013-09-04 15:40:54 418

原创 Ambari深入学习（I）－系统架构

Ambari是hadoop分布式集群配置管理工具，是由hortonworks主导的开源项目。它已经成为apache基金会的孵化器项目，已经成为hadoop运维系统中的得力助手，引起了业界和学术界的关注。现在我们将深入学习Ambari原理及其架构。Ambari架构采用的是Server/Client的模式，主要由两部分组成：ambari-agent和ambari-server。amba...

2013-09-04 13:35:13 552

原创 Nagios安装部署

一、nagios 安装nagios是一个分布式的服务监控系统，能够很方便地监控各服务的运行状态，它不是ganglia的替代品，而是通常与ganglia集成在一起，完成强大的系统监控功能。在安装nagios监控系统时，至少需要安装如下已经个包。这些包都可以直接在官网上下载。nagios-core：监控引擎及基本的监控页面nagios-plugin：通过plugin可以监控服务，应...

2013-08-07 13:28:46 172

原创 linux bond网络配置

当linux系统上有多个单独网卡，又想充分利用这些网卡，同时对外提供一个统一的网络地址，以使得增大网络的吞吐量，同时也提高网络的可用性，这时就需要bond来帮助我们解决这个问题。linux中bond感觉有点带有bound和bind的意思，从字面意义上，就可以看出bond的作用是聚合多个东西，组合成一个统一的东西使用。bond的配置在很简单，但是配置不好，很容易造成严重的网络问题。bondi...

2013-08-02 01:48:16 899

原创 ganglia监控安装

一、引言ganglia是一个优秀的分布式集群网络监控系统，起源于UC Berkeley发起的一个开源项目。该项目起初的定位就是开发出一个能监控数千计节点的监控服务系统，把各节点的状态信息汇总一起，以供使用者能够方便集中地观察集群的相关指标。在ganglia里面，采集的指标称之为度量数据。这些度量数据包含有cpu, memory，硬盘使用情况等。当然，我们也可以为ganglia写一些插...

2013-07-24 22:10:16 168

原创 h2 sql引擎实现及其源代码学习

引言在java语言里访问数据库一般是通过jdbc去访问，jdbc一般用于客户端去联接数据库，并且把相应的sql语句传给数据库服务器，服务器接收到sql请求就开始分发给sql执行引擎解析sql并执行相应任务，在服务器端执行完得到的结果（对于那些更改操作没有相关结果）传输给对应的客户端。通常情况下，我们经常去编写jdbc客户端，看如何建立连接与服务器交互。如果我们也需要在服务端建立类似my...

2013-07-18 21:42:23 1106

原创 mac新手笔记

引言最近单位发了一台mac air的开发机，它给我装的是Win7系统。我通过网络重装成 10.8.4版本的Mac OS Mountain Loin系统。这是我的安装相关软件笔记，发表出来以供新手参考。内容比较少，会继续补充。在网上找到一些比较精华的文章http://bbs.weiphone.com/read-htm-tid-5880926.html 在这...

2013-07-14 09:49:09 127

原创 Apache Tez DAG计算应用框架

1. Tez简介Tez是基于Hadoop Yarn之上的DAG（有向无环图，Directed Acyclic Graph）计算框架。它把Ｍap/Reduce过程拆分成若干个子过程，同时可以把多个Ｍap/Reduce任务组合成一个较大的DAG任务，减少了Ｍap/Reduce之间的文件存储。同时合理组合其子过程，也可以减少任务的运行时间。2. DAG计算模型Map/Reduce不能解决...

2013-07-02 23:48:12 692

原创 MPI集群搭建指南

由于有时需要使用到MPI集群来进行迭代运算，就尝试着自己去搭建着MPI集群。不过这也是到去年工作的事情了。我现在凭我的记忆去把它回忆出来。从零开始，搭建MPI集群是一件很费周折的事情。MPI是一种编程模型，业界有很多种实现，其中开源版本就有好几个版本。对比过openfabrics公司提供的OFED和俄亥俄州立大学的mvapich2，我最终在选型时选取了mvapich2。服务...

2013-07-02 10:47:26 648

原创 HBase Master管理功能总结

近段时间，对HBase 的Master节点相关的代码进行了学习，感觉它的设计思路是尽量把master节点做成一个很轻的管理节点。这里很轻的意思就是只做自己该做的一些事，很多不该做的事情都移出去，移给zookeeper，移给regionserver，让自己变得简单。1. HMaster接口HMaster类继承了四个接口， HMasterInterface, HMasterRegionIn...

2013-07-02 10:46:43 564

原创 Hadoop Yarn解决多类应用兼容方法

1. Yarn应用兼容Hadoop Yarn框架是Hadoop 2.0以上的新一代计算框架，在它上面可以跑多类应用，不仅能够跑经典MR计算，还能在该框架上实现实时计算，交互式计算，流式计算等等。正因为这样，Yarn得到了前所未有的关注，发展速度也比MRv1快。MRv1耗时有8年才使其稳定，而Yarn才发展了2年，就已经被许多公司采用。既然Hadoop能在Yarn上实现多类应用框架...

2013-07-01 23:28:03 344

原创 Hadoop Yarn上实现Hama BSP计算应用

1. 引言hadoop 0.23系列后，就对Map/Reduce进行了完全重写，把原有的MR计算框架替代成了新一代Yarn计算框架－ Yarn。Yarn有一点类似于Mesos（它们之间的对比请看如下链接How does YARN compare to Mesos?），运行在hdfs之上，用JAVA写的计算资源管理框架。而Map/Reduce被看成是一个成熟的应用框架运行在Yarn计算框架之...

2013-06-27 20:28:32 216

原创 Hadoop kerberos security配置

这是我很早以前开始学习hadoop时写的一篇文章，文章内容比较粗糙，现在张贴出来。以飨读者。 1. IntroductionKerberos Security Management Mechanism is new to hadoop 1.0 and Cloudera Distributed Hadoop. 在hadoop 1.0和CDH3中新加上了kerberos安全机制来控制h...

2013-06-27 11:30:52 581

原创 Yarn源码学习

近段时间，怀着一个好奇的心态去学习一下yarn，并且简单地看了一下源代码。我直接从hadoop-common的trunk中下载源码并且编译运行，这样与社区比较同步。如果你对maven 比较了解的话，编译起来都很简单的。 1. Service在hadoop 3.0-snapshot的源码里面分析出，它把系统里面每一个功能都抽象成服务。一个服务都有一个状态机，里面包含四种状态：未初始化（n...

2013-06-18 18:44:36 276

原创 R语言学习

1. 前言前段时间，做些性能测试，需要画出一些测试结果图。简单学习了一下R语言，发现其很强大，因此在亚馬逊上买了3本关于R语言基础和用于数据挖掘方面的书籍。R在数理统计和数据挖掘提供了很多的类库，在进行这方面的分析都比较简单。无论在CentOS上或在Ubuntu上，安装R语言比较简单。在网上都有相关的资料，熟悉Linux系统都能很快地安装成功。下面我将列出我学习的数据集及其相...

2013-06-01 15:50:48 171

原创 HBase读书笔记2

1. QoSHBase的请求都有一个请求级别，即优先级(priorityLevel)。在RPC那一层也有它们相应级别的线程池，根据请求的优先级放到相应的线程池中。这两个线程池的线程数量分别由参数hbase.regionserver.handler.count 和hbase.regionserver.metahandler.count配置。在regionserver中，优先级＜＝10的被...

2013-05-30 14:17:54 182

原创 Hadoop Shuffle过程分析

hadoop shuffle 优化在hadoop中，在map/reduce的shuffle阶段，jetty用于数据传输。提高map/reduce的效率，针对shuffle的优化也是很重要的。它可以在以下几个方面进行优化：优化jetty减少map输出用netty来替换jetty压缩传输Hadoop Map阶段的输出机制一个作业由Map Task和Reduce Ta...

2013-05-28 20:46:37 150

原创 Thrift和HBase 性能评价分析

1. Thrift框架Thrift是Facebook开源出来的通信服务框架，典型的C/S架构模式，支持跨语言编程，例如Java, C++，Python等主流语言，能够友好地解决各大系统的数据通信问题和多种语言运行环境不同所引起的信息交互问题。Thrift采用一种IDL编码通信的方式，跟业界在以前通常采用的CORBA通信协议标准方式有点类似。它通过创建IDL文件，生成并编写相关代码文件，...

2013-05-09 07:51:19 822

原创 Mahout Canopy Clustering学习

KMeans聚类可以通过你给定的k值把集合聚类成k个集合。有时，你无法知道这个集合分成几类最佳，即无法给出相应的k值。Canopy 聚类可以帮你解决这个问题。它能够在你给出的域值[t2, t1]范围内，把这些数据分成若干类别，每种类别称之为Canopy。在Mahout里面的 CanopyDriver.buildClusterMR() 完成了一种Canopy聚类的Map/Reduce实现：...

2013-05-08 21:02:23 95

原创 Sqoop新增批量导入HBase功能

Sqoop导入HBase的实现是直接调用HBase的HTable.put接口，在HBase集群有压力的情况下，这个导入方式是相当慢的。到底有多慢，可以参考一下我写的一篇文章：批量Load到HBase 因此，我在Sqoop 1.4.3的基础上，添加了一种调用LoadIncrementalHFiles.doBulkLoad的bulk load功能。已经把patch提供给社区, https:/...

2013-05-07 20:05:34 238

原创 Sqoop新增多版本导入HBase功能

Sqoop是关系型数据库向Hadoop生态圈的导入导出工具。该工具可以把mysql, oracle等关系型数据库的数据直接导入到hadoop, hive, hbase，同时也可以把hadoop, hive, hbase里面的数据转存到mysql, oracle等传统式关系型数据库。 sqoop 在1.4的版本中不支持多版本数据导入到hbase中，本人对sqoop添加了多版本导入HBas...

2013-05-07 11:05:13 457

原创 Hama Kmeans Clustering学习

Hama 是BSP（Bulk Synchronous Parallel整体同步并行）计算框架的一种实现，类似Google研发的Pregel系统。跟前一篇<<Mahout KMeans Clustering学习>>的流程一致,分四不走，在这里我不再多说了。 BSP有三种特性：1. 局部计算，2. 节点通信，3. 全局栅栏同步。这使得BSP能够很好地实现迭代计...

2013-05-05 00:16:25 117

原创 Mahout Kmeans Clustering 学习

一、Mahout命令使用合成控制的数据集 synthetic_control.data 可以从此处下载，总共由600行X60列double型的数据组成，意思是有600个元组，每个元组是一个时间序列。1. 把数据拷到集群上，放到kmeans/目录下hadoop fs -mv synthetic_control.data kmeans/synthetic_control.data...

2013-05-04 18:02:01 251

原创 HBase读书笔记1

HBase概念及其关系在HBase中，Master和Regionserver的关系是，Master管理着Regionserver所有节点状态的信息，同时也管理着表的状态。HBase的数据存储在regionserver节点中。HBase是一种key/value对存储的数据库表，在Regionserver节点上，针对每一个表，都会涉及到容易混淆的几个概念。表和Regionserver:...

2013-04-28 19:04:27 103

原创批量Load到HBase

hbase提供了写的操作，通常，我们可以采用HBase的Shell 客户端或者Java API进行操作。如果数据量大的话，这两种操作是很费时的。其实如果了解了HBase的数据底层存储的细节的话，HBase的数据存储格式是HFile定义的格式。批量导入HBase主要分两步：通过mapreduce在输出目录OutputDir下生成一系列按Store存储结构一样的，存储HFile文件...

2013-04-25 17:18:51 119

zhan8610189的专栏