hadoop
zp820705
10年 技术研发经验,8年 系统架构师经验,4年 CTO经验;熟悉互联网 支付 金融领域;自研基础开发框架并应用于上100 项目和20 公司。并一直致力于技术开发咨询和分享服务。
展开
-
Hadoop-分布式安装配置
基础环境 3台linux环境机器,本文采用3个VMWare做的虚拟机安装linux AS 5,本文采用vmware的NAT方式规划IP 分别为: 机器名 IP 说明 Hadoop00 192.168.91.10 Master, nameNode, SecondaryNamenode, jobTracker Hadoop01 192.168.91....2011-09-24 23:29:30 · 76 阅读 · 0 评论 -
Hadoop初学-mapreduce
看完hadoop权威指南第一,二章,初步了解了hadoop的结构和相关生态,主要详细从第二章mapreduce学习开始,现总结备查。 什么是mapreduce? 读完后,就问自己什么是mapreduce,想自己理解归纳下。 mapreduce是一种分布式的并行计算编程模型。主要把计算分map和reduce两个阶段。 map阶段是把原始输入数据分为多块输入到多个map函数中进...2011-10-22 15:22:45 · 96 阅读 · 0 评论 -
bash-文件数据分析案例hadoop
在学习hadoop的过程中,看到一个bash脚本使用awk分析文件数据的程序,觉得有使用意义,先单独记录下,以备以后需求和参考。 max_temperature.sh #!/usr/bin/env bash for year in `ls *.gz` do echo -ne `basename $year.gz`"\t" gunzip -c $year | \ ...2011-10-22 17:57:16 · 111 阅读 · 0 评论 -
Hadoop初学-HDFS基础
HDFS是hadoop的分布式文件系统,全称:Hadoop Distributed Filesystem。由1个master(call me NameNode)和N个slaver组成(call me datanode)。其中namenode负责存储元数据,控制和协调datanode存储文件数据。通过写多份(可定义,默认1)的方式实现数据的可靠性和读取的高效性。 主要特点: 1. ...原创 2011-10-31 22:12:10 · 103 阅读 · 0 评论 -
Hadoop-单机安装配置
单机安装主要用于程序逻辑调试。安装步骤基本通分布式安装,包括环境变量,主要Hadoop配置文件,SSH配置等。主要的区别在于配置文件:slaves配置需要修改,另外如果分布式安装中dfs.replication大于1,需要修改为1,因为只有1个datanode. 分布式安装请参考: http://acooly.iteye.com/blog/1179828 单机安装中,使用一...2012-02-18 11:54:08 · 83 阅读 · 0 评论 -
Hadoop 常见问题
开发客户端调用无权限问题 异常信息: org.apache.hadoop.security.AccessControlException: Permission denied: user=zhangpu, access=WRITE, inode="temp":hadoop:supergroup:rwxr-xr-x 解决方案: 修改hdfs-core.xml配置文件,关闭权...原创 2012-02-18 13:49:17 · 89 阅读 · 0 评论 -
Hadoop-HDFS源码学习草记
2012-3-3: HDFS protocol: Block 块定义,组成(blockId,numBytes,generationStamp),定义问块文件的文件命名为blk_{blockId},存储的最小单位。 BlockListAsLongs:每个Block块可以由3个long的数字表达,使用long[]存储Block[],主要用于datanode高效的上报给namenod...原创 2012-03-03 21:34:46 · 86 阅读 · 0 评论