Hadoop2.0入门——伪分布式运行WordCount

最新推荐文章于 2021-09-16 17:50:29 发布

woorh

最新推荐文章于 2021-09-16 17:50:29 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/woorh/article/details/8315300

版权

环境：VMware9.0，CentOS6.3，jdk1.6.0_24，hadoop-2.0.2-alpha。

1.安装完CentOS6.3后，将网卡设为桥接模式：

2.安装jdk

1).卸载CentOS自带的openJdk，命令：rpm -qa|grep jdk查看自带的jdk版本号，再命令：rpm -e --nodeps jdk名称

2).将jdk-6u24-linux-i586.rpm拷到安装目录下，命令：./jdk-6u24-linux-i586-rpm.bin解压

3).配置环境变量，命令：gedit /etc/profile 将以下内容添加到文件末尾

export JAVA_HOME=/usr/java/jdk1.6.0_24
export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH

命令：reboot 重启

这一步不配的话，命令：jps 查不到东西

3.ssh免密码登陆此时

命令：ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

此时用户目录的.ssh目录下生成id_dsa（私钥）、id_dsa.pub（公钥）

命令：cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

将公钥添加到authorized_keys中。

用命令：ssh localhost登陆看看要不要输入密码。如果要的话，检查下authorized_keys的权限是否为644（命令：chmod 644 authorized_keys）

4.安装配置hadoop

1).将hadoop安装包拷到安装目录下，执行命令：Tar –zvxf hadoop-2.0.2-alpha.tar.gz 解压压缩包

在本机配置为分布式：

进入 hadoop安装目录/etc/hadoop/

2).命令：gedit hadoop-env.sh 将JAVA_HOME配好：export JAVA_HOME="/usr/java/jdk1.6.0_24"

3).命令：gedit core-site.xml 在configuration标签中添加：

	<property>
		<name>fs.default.name</name>
		<value>hdfs://localhost:9000</value>
	</property>

4).命令：gedit hdfs-site.xml在configuration标签中添加：

	<property>
		<name>dfs.replication</name>
		<value>1</value>	
	</property>

5).命令：gedit mapred-site.xml在configuration标签中添加：

	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
	<property>
		<name>mapreduce.job.tracker</name>
		<value>localhost:9001</value>
	</property>

6).命令：gedit yarn-site.xml在configuration标签中添加：

	<property>
	    <name>yarn.nodemanager.aux-services</name>
	    <value>mapreduce.shuffle</value>
	</property>
	<property>
	    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
	    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
	</property>

5.格式化namenode，返回hadoop安装目录执行命令： bin/hadoop namenode -format

6.启动hadoop 命令:sbin/start-all.sh

7.验证hadoop启动情况，在浏览器中访问：localhost:50070 命令：jps查看是否有五个进程

8.运行WordCount例子：

1).在hadoop安装目录下建input目录。建两个文件：file1中输入“hello world！”，file2中输入“hello hadoop！”

2).将input目录上传到hdfs，命令：bin/hadoop fs -put input/* /input (浏览器中访问：localhost:50070可以看到目录文件)

3).执行jar，命令：bin/hadoop jar hadoop安装目录/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.0.0-alpha.jar wordcount input output

4).执行完后，下载结果，命令：bin/hadoop fs -get output

5).查看结果，命令：cat output/*

woorh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop2.0入门——伪分布式运行WordCount

环境：VMware9.0，CentOS6.3，jdk1.6.0_24，hadoop-2.0.2-alpha。1.安装完CentOS6.3后，将网卡设为桥接模式：2.安装jdk1).卸载CentOS自带的openJdk，命令：rpm -qa|grep jdk查看自带的jdk版本号，再命令：rpm -e --nodeps jdk名称2).将jdk-6u24-linux-i586
复制链接

扫一扫