2011年11月_zyj8170

12月 11月 09月 07月

转载两个OOM Cases排查过程的分享

分享一下两个OOM Cases的查找过程，一个应用是Native OOM；另外一个应用其实没有OOM，只是每隔一段时间就会出现频繁FGC的现象，OOM的查找已经具备了不错的工具，但有些时候还是会出现很难查的现象，希望这两个排查过程的分享能给需要的同学带来一些帮助。Native OOM的排查Case之前的几个PPT里我都说到了，目前查找Native OOM最好的方法就是用google per

2011-11-30 15:14:43 765

转载利用Arena Allocation避免HBase触发Full GC

Arena Allocation，是一种GC优化技术，它可以有效地减少因内存碎片导致的Full GC，从而提高系统的整体性能。本文介绍Arena Allocation的原理及其在Hbase中的应用-MSLAB。背景假设有1G内存，我顺序创建了1百万个对象，每个对象大小1K，Heap会被渐渐充满且每个对象以创建顺序相邻。此时，如果我释放50万个奇数对象，即 1 3 5 7后，剩余空间会多出5

2011-11-30 15:05:10 855

转载 hbase加载大数据

一、概述HBase有很多种方法将数据加载到表中，最简单直接的方法就是通过MapReduce调用TableOutputFormat方法，或者在client上调用API写入数据。但是，这都不是最有效的方式。这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业，将数据以HBase内部的组织格式输出成文件，然后将数据文件加载到已运行的集群中。（注：就是生成HFile，然后加载

2011-11-29 17:44:15 706

转载海量存储计算

技术领域—海量存储计算 PB时代的来临Petabyte，2的50次方个字节。这个对很多人还是很陌生的计量单位，已经变得越来越普遍和触手可及。2004年8月，GOOGLE日常任务输入的数据已经达到了3PB ；2005年Mark Hurd从Teradata来到HP出任CEO，开始建设基于Neo View的8PB的HP EDW。2006年，YAHOO构建了世界上第一个基于ORACLE RAC

2011-11-29 16:43:34 839

原创 hive的编译模块设计

解析器(Parser)解析器由antlr生成, 文法定义在Hive.g文件中。它的功能是将查询字符串翻译成抽象语法树(Abstract Syntax Tree, 简称AST).语法分析器(Semantic Analyzer)语法分析器将AST转换成内部查询形式,此形式为查询块(Query Block), 而不是一棵操作符树(Opertator Tree).它还验证查询语句中的列名,

2011-11-23 15:06:24 1508

原创 hive之explain命令

EXPLAIN FROM src119 SELECT key , count(distinct value) group by key ABSTRACT SYNTAX TREE: (TOK_QUERY (TOK_FROM (TOK_TABREF src119)) (TOK_INSERT (TOK_DESTINATION (TOK_DIR TOK_TMP_FILE)) (TOK_SE

2011-11-22 11:46:59 4189

原创 hive执行源码分析

大体看了一下 Hive 源码，主要包括客户 / 服务器通信，语法解析器，语义分析器，逻辑计划生成器，计划优化器，物理计划生成器，物理计划执行器等部分。分别由包 parse,plan, optimizer, Exec 中的代码来实现的。 Hive 是将 SQL 语句转换成 hadoop 的 MapReduce 程序，通常在客户端执行 hive 命令，然后输入 SQL 语句后，

2011-11-22 11:35:03 2836

原创单例模式不简单

单例模式看似简单，但如果写的不够规范，在高并发下可能会产生严重的堵塞。一般单例的实现有两种方式：代码一：public class EagerSingleton{private static final EagerSingleton m_instance = new EagerSingleton();/*** 私有的默认构造子*/private EagerSingle

2011-11-21 21:47:22 676

原创 hadoop集群

我总好奇其他公司是如何安装Hadoop集群的。他们是如何使用微系统的。由于Hadoop仍然是新技术，还没有最佳实践。每个公司都是按照他们的想法实施Hadoop集群的最佳架构。 Hadoop NYC2010会议上，ebay展示了他们的生产环境中Hadoop集群的实施情况。下面是ebay实施Hadoop的要点。 1) JobTracker, Namenode, Zookeeper, HBase M

2011-11-21 11:46:25 801

原创 Java长期运行后， jps等工具无法连接jvm

相信很多朋友都遇见过，一个Java应用长期运行后，发现jps， jstack, jstat等工具都无法连接正在运行的jvm了。如果这个时候发生故障，非常难以诊断。一直以来，我都以为是Java的bug.　　最近偶然得知， jps的工作模式是读取了系统临时文件夹下的pid文件里的内容获得连接信息的。这个文件夹在Linux下的名字是：/tmp/hsperfdata_$USER

2011-11-18 15:15:21 938

原创 hadoop性能调优

hadoop集群调优分两个方面,map和reduce map调优： map 任务执行会产生中间数据,但这些中间结果并没有直接IO到磁盘上,而是先存储在缓存(buffer)中,并在缓存中进行一些预排序来优化整个map的性能,该存储map中间数据的缓存默认大小为100M，由io.sort.mb 参数指定.这个大小可以根据需要调整。当map任务产生了非常大的中间数据时可以适当调

2011-11-18 10:35:28 1967

原创 scribe安装

安装过程：一、输入gcc –v 检查gcc版本是否>3.3.5 是，则继续下一步。否，则安装gcc 。二、安装ruby 和python python 用默认安装路径。Ruby 推荐使用默认路径安装过程均为./configure make make install三、安装lievent 解压安装即可

2011-11-16 11:03:08 1543

File-Tail-Scribe

scrbie收集日志文件的工具模块。解压安装

2011-12-14

DBI-1.615.tar.gz

perl dbi模块，解决连接数据库的问题。

2011-12-14

DBD-mysql-4.018.tar.gz

perl语言中mysql模块的支持

2011-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人