2011年07月_wf1982

原创 Hive 执行流程图源码入口

图片地址：http://hi.csdn.net/attachment/201107/29/0_1311922740tXqK.gifCliDriver可以说是hive的入口，对应上图中的UI部分。大家看它的结构就可以明白了，main（）函数！对！你猜的没错就是从main（）开始。下图是类结构，总共有五个关键的函数。这个类可以说是用户和hive交互的平台，你可以把它认为是hi

2011-07-29 15:00:25 5029

转载 hive 元数据解析

转自：http://www.tbdata.org/archives/939在使用hive进行开发时，我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。要想还原建表DDL就必须从元数据入手，我们知道，hive的元数据并不存放在hdfs

2011-07-29 14:47:59 18800

原创 scribe 架构及其store

1、概述Scribe是facebook开源的日志收集系统，在facebook内部已经得到大量的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。它为日志的“分布式收集，统一处理”提供了一个可扩展的，高容错的

2011-07-29 13:11:00 2194

原创翻译 Scribe : a way to aggregate data and why not, to directly fill the HDFS?

参考文章 http://blog.octo.com/en/scribe-a-way-to-aggregate-data-and-why-not-to-directly-fill-the-hdfs/翻译待续。。。。

2011-07-29 13:06:25 738

转载用java端，通过log4j 把日志写入scribe 日志系统

用java端，通过log4j 把日志写入scribe 日志系统。一、生成scribe客户端生成 java客户端api A. 修改配置文件scribe.thrift cd /usr/local/scribeInstall/scribe/if vi scr

2011-07-29 12:58:22 5613 1

原创 Hive的数据存储格式

Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：Table

2011-07-28 19:07:03 3415

原创 hive某些参考

hive是没有库的概念的，但是我们通常是需要“库”这个东西存在。 1.不同日志，视为不同的“库”，其MetaStore在Mysql建立不同的数据库存放 2.每个“库”，对应一个用户，并且创建单独的conf目录 3.在单独的conf目录下，修改hive-default.xml文件，

2011-07-28 18:36:51 885

原创 hive资料整理系列六 hive 配置

1 配置hive 1.修改bin/hive-config.sh，添加jdk支持 Java代码 export JAVA_HOME=/usr/local/jdk export HIVE_HOME=/data/soft/hive export HADOOP_HOME=/data/

2011-07-28 18:11:49 2778

原创 Hive 资料整理系列五 Hive-0.5中SerDe概述

一、背景1、当进程在进行远程通信时，彼此可以发送各种类型的数据，无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输，称为对象序列化；接收方则需要把字节序列恢复为对象，称为对象的反序列化。2、Hive的反序列化是对key/valu

2011-07-28 16:52:27 1783

转载 Hive资料整理系列四 Hive - 运用于hadoop的拍字节范围数据仓库 --译文

【原文】 Hive – A Petabyte Scale Data WarehouseUsing Hadoop【作者】 Facebook 数据架构组： Ashish Thusoo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasa

2011-07-28 15:54:50 2635

转载 hive资料整理系列三总体介绍

在http://www.javabloger.com/article/apache-hive-2.html看到的，感觉不错，转帖过来。我的偏见: 对于互联网公司来说提炼挖掘生产中用户产生的大量日志是个有价值的工作，在这些看似垃圾东西中蕴含着大量的商业机会和用户的需求，如果可以简

2011-07-28 14:41:38 1505 1

原创 Hive资料整理系列二 Hive安装及mysql做元数据库 --clouder版本

Debian 上安装： Java代码 $ sudo apt-get install hadoop-hive redhat/centos 上安装： Java代码 $ sudo yum install hadoop-hive 启动hive 控制台：

2011-07-28 14:35:37 3578 2

原创 hive 资料整理系列一入门

Hive是Hadoop项目中的一个子项目，由FaceBook向Apache基金会贡献，其中TaoBao也是其中一位使用者+贡献者，Hive被视为一个仓库工具，可以将结构化的数据文件映射为一张数据库表，并可以将sql语句转换为 MapReduce 任务进行运行。其优点是学习成本低

2011-07-28 14:31:46 1265

转载使用mysql做hive metadata 数据库

In a previous post I showed how to setup Hadoop/Hive to use Derby in server mode as the metastore. Many believe MySQL is a better choice for

2011-07-28 14:22:27 1515

原创 thrift-0.5.0编译错误解决

之前在32位机器上没法现，在64位机出现。错误如下：/home/jason/src/app/devel/thrift-0.5.0/lib/php/src/ext/thrift_protocol/php_thrift_protocol.cpp: In function ‘void

2011-07-27 17:10:13 2124

转载 RPM包rpmbuild SPEC文件深度说明

上一篇日志写到，为什么要制作rpm包，以及如何使用.src.rpm文件生成rpm包。最后部分还看到.src.rpm的内容，实际上就是由.tar.gz源码、补丁软件和.spec脚本组成的。由此知道，使用.spec生成rpm包是比较简单的，因为.src.rpm通常都是由软件开发者

2011-07-26 22:30:32 12513

转载 Cloudera提供HTTP方式连接HDFS工具

Hoop是Apache Hadoop贡献者Cloudera公司推出的一款新工具。Hoop可通过REST API提供以HTTP方式访问Hadoop 分布式文件系统（HDFS）的功能。Hoop是Hadoop NameNode的一个单独服务。例如在UNIX下：$ curl http:/

2011-07-25 11:29:44 1834

转载 RPM 打包技术与典型 SPEC 文件分析

一、rpm 介绍1. 概述RPM全称是 Red Hat Package Manager（Red Hat包管理器）。几乎所有的 Linux 发行版本都使用这种形式的软件包管理安装、更新和卸载软件。RPM是一个开放的软件包管理系统。它工作于Red Hat Linux以及其它Linux和UNIX 系统，可被任何人使用。redhat软件公司鼓励其它厂商来了解RPM并在自己的产品中

2011-07-22 19:13:10 799

转载 MapReduce 调优

Hadoop平台已经成为了大多数公司的分布式数据处理平台，随着数据规模的越来越大，对集群的压力也越来越大，集群的每个节点负担自然就会加重，而且集群内部的网络带宽有限，数据交换吞吐量也在面临考验，由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发，针对Hadoop

2011-07-22 15:02:19 2584

转载 pig实战

. Pig简介 pig是hadoop项目的一个拓展项目，用以简化hadoop编程（简化的程度超乎想象啊），并且提供一个更高层次抽象的数据处理能力，同时能够保持hadoop的简单和可靠性。. 安装pig 2.1 下载pig：[点击下载]pig安装包2.2 解压下载完成的pig安装

2011-07-22 13:37:40 976

原创 tarball版CDH3B4 Hadoop安装

1、由于CDH3默认没法用root启动，会报错“May not run daemons as root. Please specify HADOOP_NAMENODE_USER “，所以需要创建新用户。2、Hadoop要求所有机器上hadoop的部署目录结构要相同，并且都有一个相

2011-07-22 13:35:56 2144

转载给hadoop 0.20.2打patch补丁

1. 生成hadoop patch单文件：diff -u from-file to-file多文件：diff -uNr from-dir to-dir > to-dir.patch2. 在hadoop根目录下安装patchpatch -p0 -0.20.2-v1382.patch

2011-07-22 11:17:07 5039

转载 Clouder CDH Hadoop安装

感觉CDH版本安装确实方便，但是一直没找到如何自定义安装目录，不太习惯这种方式。转下一个别人的帖子。1、先保证你的yum源是最新可用的，这样可以省好多事，例如pax, patch, python-setuptools都会被CDH3组件依赖。2、安装jdk, jre。但对非RPM

2011-07-22 11:12:45 8660

转载 Apache Pig入门1 –介绍/基本架构/与Hive对比

一、介绍Google的工程师为了方便自己对MapReduce的实现搞了一个叫做Sawzall的工具，Google就放了几篇论文放在网上，但这玩意在代码上不开源在设计思想是开源的，在前面一篇文章中我也提到过Hadoop也推出了类似Sawzall的Pig语言，就是根据Google放出

2011-07-21 19:39:55 2686 1

转载 linux-RPM 打包原理 SPEC 编写规范

一、编写spec脚本由前面的日志了解到，生成rpm除了源码外，最重要的就是懂得编写.spec脚本。rpm建包的原理其实并不复杂，可以理解为按照标准的格式整理一些信息，包括：软件基础信息，以及安装、卸载前后执行的脚本，对源码包解压、打补丁、编译，安装路径和文件等。实际过程中，最关

2011-07-18 18:17:21 6023

转载 Scribe+HDFS日志收集系统安装方法

1、概述Scribe是facebook开源的日志收集系统，可用于搜索引擎中进行大规模日志分析处理。其通常与Hadoop结合使用，scribe用于向HDFS中push日志，而Hadoop通过MapReduce作业进行定期处理，具体可参见日文日志：http://d.hatena.ne

2011-07-15 18:16:01 1021

转载 hbase、zookeeper及hadoop部署

引自 http://hi.baidu.com/dekar/blog/item/f5c034efcf080e5778f055a6.html一机器192.168.0.203 hd203： hadoop namenode & hbase HMaster192.168.0.204 h

2011-07-12 18:20:08 5149

原创使用HDFS来进行线上应用的文件存储

这段时间公司使用的hadoop组件hdfs存储图片经常出现上传超时的问题，经过分析后发现了原因：先说下情况吧，目前公司有一个Namenode，1个secondarynamenode和4个datanode。应用端通过一个hadoopservice去上传图片，

2011-07-06 17:57:12 2025 1

转载 Thirft框架介绍

原文：http://dongxicheng.org/search-engine/thrift-framework-intro/1、前言Thrift是一个跨语言的服务部署框架，最初由Facebook于2007年开发，2008年进入Apache开源项目。Thrif

2011-07-05 17:25:46 1642

转载 scribe日志系统安装笔记

引自 http://addcn.blogbus.com/logs/104688875.html版本历史 2011-02-12 17:36:57 完成文章2011-02-23 10:49:12 更新，修正部分文字目前web访问日志为crontab定时清空，而且负

2011-07-05 15:54:22 1096

原创 inux下进程的最大线程数、进程最大数、进程打开的文件数

inux下进程的最大线程数、进程最大数、进程打开的文件数2008-12-07 23:48＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝如下转载自这里。linux 系统中单个进程的最大线程数有其最大的限制 PTHREAD_THREADS_MAX这个限

2011-07-04 16:50:09 561

Royce Wang专栏