一、Hadoop配置文件修改
(如果要设置集群,必须先设置主机名和hosts,否则DataNode不能和namenode相连接)
1、hadoop-env.sh
修改JAVA_HOME的值
2、core-site.xml
3、hdfs-site.xml
4、mapred-site.xml(将mapred-site.xml.template重命名)
5、yarn-site.xml
二、启动hadoop
1、hadoop/bin运行 ./hdfs -namenode –format
2、hadoop/bin运行 jps 查看java进程
3、hadoop/sbin运行start-dfs.sh
4、hadoop/sbin运行start-yarn.sh
5、hadoop/bin运行 jps 查看java进程
三、使用hadoop
1、hdfs文件系统
路径/hdfsdfs -ls(等文件操作命令) +路径
或者在ip:50070的文件目录查看
四、mapper编程
注: 1、可以手动指定reduce的个数,job.setNumReduceTasks(intnum);
2、防止jar包存放位置写死,可以使用job.setJarByClass(this.class)
3、如果需要在map阶段计算一些小型的计算,可以指定一个combiner,用法与reducer相同,工作在两者之间,并用job.setCombinerClass(MyCom.class)指定类。
五、启动yarn
hadoop jar pv.jar
六、使用技巧
1、当一次不能得到结果时,可以采用两次或者多次的方法。
2、如有需要