hadoop作为分布式计算三大框架之一,在现实的应用中,具有重要的地位。本文通过经典的词频统计的实例,来说明如何在windows10下进行基于Hadoop的程序开发和调试,并就自己遇到的“坑“详细说明一下解决方法。
1. 具体需要完成的工作如下:
首先,你要有一个linux环境,hadoop无法运行在windows系统之上的,你可以在window上安装虚拟机,并在虚拟机上安装linux系统(或者采用cygwin,本文不介绍);
然后,你需要安装并配置一个hadoop集群;
其次,在windows下,对eclipse进行配置,使其能够进行hadoop开发;
最后,创建hadoop工程,编写代码并调试。
2. 准备工作
2.1. 安装虚拟机、linux系统和hadoop集群
所使用的软件为VirtualBox+Centos 7+ Hadoop2.6,hadoop集群为伪分布式方式,具体可参考 http://blog.csdn.net/yongge1981/article/details/78737523中相关部分;
需要注意core-site.xml中加入如下配置:
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.56.109:9000</value>
</property>
mapred-site.xml中加入如下配置:
<property>
<name>mapred.job.tracker</name>
<value>192.168.56.109:9001</value>
</property>
2.2 windows10下开发环境配置