hadoop学习笔记
文章平均质量分 79
wudi_1982
这个作者很懒,什么都没留下…
展开
-
hadoop学习笔记-第三天-搭建集群
hadoop可分为: 1、本地(单机)模式,默认情况 2、伪分布模式,是在单节点上运行“集群” 3、全分布模式 单机模式在昨天的测试中已经测过,不再记录。全分布模式配置过程记录: 1、准备两台虚拟机,网络可以互相连接,/etc/hosts文件如下127.0.0.1 localhost.localdomain loc原创 2013-12-07 23:09:22 · 1051 阅读 · 0 评论 -
hadoop学习笔记--第十天--增减删除节点
增加节点1、新增加节点192.168.203.1132、配置无密码rsh,将namenode节点/home/hdpuser/.ssh/authorized_keys拷贝同113的同等目录下,并设置.ssh目录权限为700,authorized_keys权限为6003、则namenode的slaves文件中,增添新机器的hostname4、在/etc/hosts中增添新机器hostn原创 2013-12-17 16:54:03 · 862 阅读 · 0 评论 -
hadoop学习笔记--第九天--Report Counter
可以在程序中定义不同的计数器,分别累计特定事件的发生次数。对于同一作业所有任务的相同计数器,Hadoop会自动对他们求和,以反映整个作业的情况。 在Map以及reduce方法中,有一个reporter对象。例如以下代码红色字体部分: public static class MapClass extends MapReduceBase implements原创 2013-12-12 16:48:56 · 624 阅读 · 0 评论 -
hadoop学习笔记--第八天--MapReduce基础编程
初识MapReduce,本能的想到了datastage orchestrate并行引擎(partition,collection),很亲切,核心思想看起来差不多。只不过orchestrate中包含了各种partition、collection的具体method。但总体还是分为两类,以均匀分布为主旨的方法以及KEY值相关的方法(保证KEY相同在相同分区)。 从《Hadoop in Acti原创 2013-12-11 18:04:25 · 531 阅读 · 0 评论 -
hadoop学习笔记--第七天--编程读写HDFS
虽然并不打算使用JAVA深入的开发Mapreduce程序,但经过这几日的了解,总觉得,如果不写几段MapReduce程序,也许真的不能很好理解HADOOP的一些思想。用PIG或Hive时,很多时候,察觉不到HDFS的存在。 从网上找了一段读写HDFS的代码,来自《HADOOP实战》一书。因为之前没有任何JAVA编程的基础,所以今天的目标更多是搭建一个JAVA的开发环境,能够将COPY的代原创 2013-12-11 02:25:34 · 1130 阅读 · 0 评论 -
hadoop学习笔记-第六天-学习Pig Latin
一个准备工作先做了一个测试。用于“分布式存储“。1、通过shell创建按了一个152M的文件,具体shell如下:for k in $( seq 1 1500000 )do echo -e "$k\twudi$k\ttest$k\tabcd$k\t$k" >> tt.txt 2>&1 echo -e "$k\twudi$k\ttest$k\tabcd$k\t$k" >>原创 2013-12-09 22:37:25 · 767 阅读 · 0 评论 -
hadoop学习笔记-第六天-初步接触Hive
hadoop的东西玩的有点儿上瘾了,睡觉睡不着。对于一个写代码自娱自乐的销售来说,这几天折腾HADOOP的时间有点儿多了。 Hive是建立在hadoop基础上的数据仓库软件包,其目标用户仍然是习惯了SQL的数据分析师,他们需要在HADOOP规模的数据上做既系查询、汇总和数据分析,因为是建立在HADOOP基础上,所以它仍然设计用于处理低延迟与批量类型的作业。故而它并不会直接取代传统的S原创 2013-12-10 01:29:34 · 611 阅读 · 0 评论 -
hadoop学习笔记-第四天-PIG环境搭建
安装配置pig 0.12.01、下载pig 0.12.02、直接解压,配置环境变量export JAVA_HOME=/usr/java/jdk1.7.0_45export HADOOP_HOME=/home/hdpuser/hadoop-2.2.0export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoopexport PATH=$PATH:$H原创 2013-12-08 04:59:11 · 1321 阅读 · 0 评论 -
hadoop学习笔记-第二天-动手编译hadoop
昨天从官网下的介质,运行第一个程序时,有如下警告信息:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable 发现是本地库不能正常加载,从网上找了一些资料,总结起来对于我这个以学习为目的,原创 2013-12-06 22:23:21 · 966 阅读 · 0 评论 -
hadoop学习笔记-第一天-从安装开始
这些年做销售有点儿吃老本了。之前做数据算是和hadoop有那么点儿缘分,莫名玩上nutanix,才发现缘分也许不止那么一点点。 就从word count开始运行第一个程序吧。 1、linux虚拟机一台,我用了SUSE11 2、现在HADOOP介质 ,下了2.2.0版本,http://mirrors.cnnic.cn/apache/hadoop/common/原创 2013-12-06 01:30:08 · 625 阅读 · 0 评论 -
hadoop学习笔记-第五天-重新修复全集群环境
基本配置记录 之前虽然看起来全集群配置好了,但在后续的学习测试中(例如PIG),发现还是会有各种报错。切换到伪集群模式正常,怀疑和全集群环境的配置有关系。今天重新折腾一番。 放弃之前从各个网络环境查到的资料(之前的配置文件其实是个“融合”版),到官网http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-c原创 2013-12-08 15:10:05 · 707 阅读 · 0 评论 -
hadoop学习笔记--第十一天
经过前一段的学习,对hadoop算是有了一个第一印象。 这几天忙,就随便搞搞。 主要收获为: 一,调试代码时,出现错误 java.io.IOException: Type mismatch in value from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.原创 2013-12-22 00:45:03 · 597 阅读 · 0 评论