一、环境介绍
使用VirtualBox安装Ubuntu虚拟机。在Ubuntu中安装Hadoop和Eclipse3.8编译器。下载安装JAVA环境,下载jdk并完成Hadoop的伪分布式环境配置。在Eclipse中导入编译程序所遇到的所有需要的JAR包。启动hadoop,网站中下载 hadoop-eclipse-plugin且解压并添加进Eclipss使在Eclipse中可以成功编译运行MapReduce程序。
二、导入jar包
需要导入的jar包有
(
1
)
“/usr/local/hadoop/share/hadoop/common”
目录下的
hadoop-common-3.1.3.jar
和
haoop-nfs-3.1.3.jar
;
(2)
“/usr/local/hadoop/share/hadoop/common/lib”
目录下的所有
JAR
包;
(3)
“/usr/local/hadoop/share/hadoop/mapreduce”
目录下的所有
JAR
包,不包括 jdiff
、
lib
、
lib-examples
和
sources
目录。
(4)
“/usr/local/hadoop/share/hadoop/mapreduce/lib”
目录下的所有
JAR
包。
三、数据来源及数据上传
在百度中收集各大诗人的英文简介,存放于文本中并命名为zjh.txt。在VirtualBox软件中安装增强功能,并使用其双向拖拉文件功能将需要进行词频统计的zjh.txt传至hadoop中的桌面。