风隐才藏-CSDN博客

原创 Hadoop 2.2.0正式版特性分析

Apache官网的说明：15 October, 2013: Release 2.2.0 availableApache Hadoop2.2.0 is the GA release of Apache Hadoop 2.x.Users areencouraged to immediately move to 2.2.0 since this release is significantl

2013-11-07 09:08:39 4490

原创 Impala重点问题列表

Impala重点问题列表（截止到1.01）从目前的情况来看，impala的稳定性和易用性还有待提高，在生产环境中部署还存在比较大的风险。未解决：· impala-shell命令不兼容Python 2.4Impala 1.0.1中的impala-shell命令与Python 2.4不兼容, 后者是Red Hat 5的默认Python.Impala 1.0中的im

2013-06-14 14:39:47 19852

在前一篇博文中，我已经详细的讲解了Hadoop RPC中客户端通信组件的实现，与之对应的就会有一套服务器端通信组件的实现。Hadoop RPC的服务器端采用了多线程的设计，即服务器会开启多个处理器(后天线程)来处理所有客户端发送过来的RPC调用请求，所以在服务器端主要包括三个组件：监听器(Listener)、处理器(多个Handler)、响应发送器(Responder)。接下来我将主要围绕这三大组

2013-06-10 11:30:26 1071

转载 Hadoop中的RPC实现——客户端通信组件

在Hadoop中为了方便集群中各个组件之间的通信，它采用了RPC，当然为了提高组件之间的通信效率以及考虑到组件自身的负载等情况，Hadoop在其内部实现了一个基于IPC模型的RPC。关于这个RPC组件的整体情况我已绍经在前面的博文中介绍过了。而在本文，我将结合源代码详细地介绍它在客户端的实现。先来看看与RPC客户端相关联的一些类吧！1.Client类

2013-06-10 11:28:57 985

转载 Hadoop中的RPC实现(概述)

Hadoop作为一个存储与服务的基础性平台，同时它的内部有采用了master/slave架构，那么其内部通信和与客户端的交互就是必不可少的了。Hadoop在实现时抛弃了JDK自带的一个RPC实现——RMI，而自己基于IPC模型实现了一个高效的轻量级RPC。整体结构在IPC包中，最重要的3个类是ServerC，lient和RPC，它们具有层次化的结构。 1.R

2013-06-10 11:26:56 940

原创 Impala各版本新特性

自0.3之后的重点新特性1.0· 支持ALTER TABLE。· 支持通过Hints指定join策略。支持的Hints：o [broadcast]：broadcast join策略（将小表放到所有节点上与大表进行分片join）o [shuffle]： partitionedjoin策略（分片join）· 支持

2013-05-24 13:56:29 3624

原创 Hotspot垃圾收集器介绍

注意垃圾回收器Garbage Collector(简称Collector)和垃圾回收Garbage Collection(简称GC)的区别。Collector的职责分配内存。保证有引用的内存不被释放。回收没有指针引用的内存。对象被引用称为活对象，对象没有被引用称为垃圾对象/垃圾/垃圾内存，找到垃圾对象并回收是Collector的一个主要工作，

2013-05-24 11:45:11 2627

原创 JVM运行时内存空间结构

JVM执行Java程序的过程中管理的内存空间，包括下列几个区域：程序计数器（Program CounterRegister）· 线程私有，占用空间很小。· 线程所执行代码行号指示器。· 解释器通过计数器的值选择下一条执行的字节码指令。· 线程执行Native方法时值为空。·

2013-05-24 11:32:33 1460

转载 MapReduce之Join操作(4)

半连接(semijoin) 之前已经讨论了reduce-side join和map-side join(replicated join)，第一种较通用但效率不高，第二种对于表的大小有需求。然而即使存在表的大小不对称的情况，在许多情况下较小的表仍然不能存到内存中。这里讨论一下半连接(semijoin)，这是传统的关系型数据库中的概念。它对应这样一种常见需求：用户只关心合并之后的某些

2013-02-05 14:21:39 860

转载 MapReduce之Join操作(3)

原文链接：http://bjyjtdj.iteye.com/blog/1454803 本文讲述如何在map端完成join操作。之前我们提到了reduce-join，这种方法的灵活性不错，也是理所当然地能够想到的方法；但这种方法存在的一个最大的问题是性能。大量的中间数据需要从map节点通过网络发送到reduce节点，因而效率比较低。实际上，两表的join操作中很多都是无用的数据。现在考

2013-02-05 14:20:58 766

转载 MapReduce之Join操作(2)

原文链接：http://bjyjtdj.iteye.com/blog/1453451上一篇介绍了 Repartition Join 的基本思想，实践出真知，具体的实现中总是存在各种细节问题。下面我们通过具体的源码分析来加深理解。本文分析的是 Hadoop-0.20.2 版本的 datajoin 代码，其它版本也许会有变化，这里暂且不论。参看源码目录下，共实现有 7 个类，分别是：

2013-02-05 14:18:39 690

转载 MapReduce之Join操作(1)

原文链接：http://bjyjtdj.iteye.com/blog/1453410在关系型数据库中 join 是非常常见的操作，各种优化手段已经到了极致。在海量数据的环境下，不可避免的也会碰到这种类型的需求，例如在数据分析时需要连接从不同的数据源中获取到的数据。不同于传统的单机模式，在分布式存储的下采用 MapReduce 编程模型，也有相应的处理措施和优化方法。本文对 Hado

2013-02-05 14:17:35 928

原创 Impala查询流程日志分析

UHP博客文章地址：http://yuntai.1kapp.com/?p=1060原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8563355物理环境主节点10.28.171.33处理节点110.28.171.40处理节点2

2013-02-01 15:38:55 9788

原创 Impala查询过程详解

UHP博客文章地址：http://yuntai.1kapp.com/?p=1043原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8562844流程流程图用户通过ODBC/Beeswax Thrift API提交query到某个impalad。Impalad的Qu

2013-02-01 13:52:09 10886

原创 Hive原理与不足

UHP博客文章地址：http://yuntai.1kapp.com/?p=1035原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8560059架构UI：用户提交查询请求与获得查询结果。包括三个接口：命令行（CLI）、Web GUI（Hue）和客户端。Driver：接受查询请求与返回查

2013-01-31 15:48:44 6712

转载 Google Dremel 原理 - 如何能3秒分析1PB

原文链接：http://www.yankay.com/google-dremel-rationale/简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群，处理PB级别的数据。MapReduce处理一个数据，需要分钟级的时间。作为MapReduce的发起人，Google开发了Dremel将处理时间缩短到秒级，作为MapReduce的有

2013-01-31 11:37:43 1138

转载 Hive与并行数据仓库的体系结构比较

原文链接：http://db3.iteye.com/blog/807787最近分析和比较了Hive和并行数据仓库的架构，本文记下一些体会。 Hive是架构在Hadoop MapReduce Framework之上的开源数据分析系统。 Hive具有如下特点： 1. 数据以HDFS文件的形式存储，从而可以很方便的使用外部文件 2. 元数据存储独立于数据存储之外，从而解耦合元

2013-01-31 11:33:45 1120

转载 Hive 随谈（六）– Hive 的扩展特性

原文链接：http://www.alidata.org/archives/604Hive 是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text用户提供的 map/reduce 脚本：不管什么语言，利

2013-01-06 14:36:50 877

转载 Hive 随谈（五）– Hive 优化

原文链接：http://www.alidata.org/archives/595Hive 针对不同的查询进行了优化，优化可以通过配置进行控制，本文将介绍部分优化的策略以及优化控制选项。列裁剪（Column Pruning）在读数据的时候，只读取查询中需要用到的列，而忽略其他列。例如，对于查询： SELECT a,b FROM T WHERE e 其中，T 包

2013-01-06 14:31:06 953

转载 Hive 随谈（四）– Hive QL

原文链接：http://www.alidata.org/archives/581Hive 的官方文档中对查询语言有了很详细的描述，请参考：http://wiki.apache.org/hadoop/Hive/LanguageManual ，本文的内容大部分翻译自该页面，期间加入了一些在使用过程中需要注意到的事项。Create TableCREATE [EXTERNAL] T

2013-01-06 14:10:24 844

转载 Hive 随谈（三）– Hive 和数据库的异同

原文链接：http://www.alidata.org/archives/551摘要：由于 Hive 采用了 SQL 的查询语言 HQL，因此很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中，但是Hive 是为数据仓库而

2013-01-06 11:32:39 660

转载 Hive 随谈（一）– Hive 入门

原文链接：http://www.alidata.org/archives/481Hive 是什么在接触一个新的事物首先要回到的问题是：这是什么？这里引用 Hive wiki 上的介绍：Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enabl

2013-01-06 11:23:47 626

转载 Hive 随谈（二）– Hive 结构

原文链接：http://www.alidata.org/archives/499Hive 体系结构Hive 的结构如图所示，主要分为以下几个部分：用户接口，包括 CLI，Client，WUI。元数据存储，通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop：用 HDFS 进行存储，利用

2013-01-06 09:54:55 698

转载 MapReduce源码分析总结

原文链接：http://blog.csdn.net/HEYUTAO007/article/details/5725379参考： 1 caibinbupt的源代码分析http://caibinbupt.javaeye.com2 coderplay的avaeye http://coderplay.javaeye.com/blog/295097http://coderplay

2012-12-28 14:07:15 833

翻译 Impala介绍博客相关问答

UHP博客文章地址：http://yuntai.1kapp.com/?p=875原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8433492原博客文章地址：http://blog.cloudera.com/blog/2012/10/cloudera-impala-real-time-queries-

2012-12-26 10:00:07 2273

翻译 Impala介绍（Cloudera Impala Real-Time Queries in Apache Hadoop, For Real）

UHP博客文章地址：http://yuntai.1kapp.com/?p=854原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8433492原文链接：http://blog.cloudera.com/blog/2012/10/cloudera-impala-real-time-queries-in-

2012-12-25 14:56:09 4458

转载 Hadoop学习总结之五：Hadoop的运行痕迹

原文链接：http://www.cnblogs.com/forfuture1978/archive/2010/11/23/1884967.html在使用hadoop的时候，可能遇到各种各样的问题，然而由于hadoop的运行机制比较复杂，因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟踪Hadoop的运行痕迹，方便出现问题的时候可以通过这些痕迹来解决问题。

2012-12-20 20:26:38 927

转载 Hadoop学习总结之四：Map-Reduce的过程解析

原文链接：http://www.cnblogs.com/forfuture1978/archive/2010/11/19/1882268.html一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的：public static RunningJob

2012-12-20 20:24:11 964

转载 Hadoop学习总结之三：Map-Reduce入门

原文链接：http://www.cnblogs.com/forfuture1978/archive/2010/11/14/1877086.html1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下：按照ASCII码存储，每行一条记录每一行字符从0开始计数，第15个到第18个字符为年第25个到第29个字符为温度，其中第25位是符号+/-

2012-12-20 20:22:18 591

转载 Hadoop学习总结之二：HDFS读写过程解析

原文链接：http://www.cnblogs.com/forfuture1978/archive/2010/11/10/1874222.html一、文件的打开1.1、客户端HDFS打开一个文件，需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize)，其实现为：public FSDat

2012-12-20 20:20:03 796

转载 Hadoop 学习总结之一：HDFS简介

原文链接：http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html一、HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存

2012-12-20 19:57:03 752

原创 JVM内存管理

UHP博客文章地址：http://yuntai.1kapp.com/?p=528原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8349559模型JVM运行时数据区域JVM执行Java程序的过程中，会使用到各种数据区域，这些区域有各自的用途、创建和销毁时间。根据《Java虚拟机规范（第二版）》

2012-12-20 14:00:23 6684

原创 YARN 框架源码分析

UHP博客文章地址：http://yuntai.1kapp.com/?p=652原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8348839ResourceManager管理集群资源，创建时需要一个Store存储其信息。Store· 管理和存储RM状态接口，包含以下两个子接

2012-12-20 10:51:55 4573

原创 hadoop 0.23 状态机框架

UHP博客文章地址：http://yuntai.1kapp.com/?p=646原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8332017hadoop 0.23中使用了基于事件驱动机制的异步编程模型。每个对象都是一个有限状态机，有相应的事件处理器（EventHandler），处理器处理对应的事件类型。

2012-12-19 15:16:32 2336

原创 TaskTracker LaunchTask过程与CleanTask过程

UHP博客文章地址：http://yuntai.1kapp.com/?p=525原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8283534LaunchTask执行流程TaskTracker.run()->offerService()TaskTracker实现了Runnabl

2012-12-11 17:38:08 2066

原创 YARN ResourceManager failover机制

UHP博客文章地址：http://yuntai.1kapp.com/?p=546原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8283510RM（ResourceManager)每次在启动之前都会进行初始化并执行一次recovery操作，然后才启动RM，对外提供服务。RM启动流程

2012-12-11 17:36:10 7632

翻译 YARN Framework(MapReduce 2.0 in Apache Hadoop 0.23)

UHP博客文章地址：http://yuntai.1kapp.com/?p=600原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8283371原文链接：http://blog.cloudera.com/blog/2012/02/mapreduce-2-0-in-hadoop-0-23/ In

2012-12-11 17:17:21 2744

原创 hadoop core fs包源码概要分析（hadoop 0.20.2 cdh3u3）

UHP博客文章地址：http://yuntai.1kapp.com/?p=440原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/8090130fsBlockLocation包含block长度，所在datanode列表和block在file中的offset信息。BufferedFSInputSt

2012-10-19 15:44:22 2720

原创 Eclipse断点设置引发的血案...

原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/6546303今天在调试代码时遇到了因为断点设置而被误导,错误判断抛出异常的代码位置的情况,非常有迷惑性,一度百思不得其解,差点就让帅哥我拿豆腐撞死了!O(∩_∩)O~具体如下: if (req == ptr_t.NULL) { req = lock_hea

2011-06-15 15:19:00 2277

原创 CopyOnWriteArrayList与Collections.synchronizedMap性能比较

原创文章，转载请注明出处：http://blog.csdn.net/wind5shy/article/details/5396887平台AMD X2 5400+，2G RAM，JDK6，eclipse 3.4(By wind5shy：http://blog.csdn.net/wind5shy) 机制CopyOnWriteArrayList：

2010-03-19 16:24:00 13220 1

J2EE 1.5 API CHM

空空如也