hadoop和hive的安装方法我就不多了说了,不熟悉的同学可以参考一下下面的两篇文章
HADOOP
http://yymmiinngg.iteye.com/blog/706699
HIVE
http://hi.baidu.com/7636553/blog/item/91f8f2eb4a19c8c7d439c95f.html
前面的只是简单的一个配置,更细节的一些参数以及功能设置需要自己去查阅官方文档
一般情况下,我们是看不到HDFS中的内容的,只能用过hadoop带有的一些命令去查询,有时可能比较麻烦。而fuse则提供了方便的途径,可以让我们像访问本地目录一样访问HDFS。
下面我说一下大致的步骤
1、HADOOP和HIVE安装成功
2、fuse的安装,并把相应的lib路径添加到环境变量LD_LIBRARY_PATH中;此外该环境变量还需要添加另外两个路径,一个是关于java的,/usr/alibaba/java/jre/lib/amd64/server,另一个是hadoop解压完成以后自带的一些lib,$HADOOP_HOME/c++/Linux-amd64-64/lib。这个环境变量很重要,如果没有设置好的话,在后续的操作中会报一些库文件找不到,我在安装的过程中就在这里折腾了不少时间。
3、进入$HADOOP_HOME/fuse-dfs目录下,执行命令./fuse_dfs_wrapper.sh dfs://hadoop5:9000 /home/gpadmin1/joe.wangh/hive/hive
两个参数,第一个参数是hadoop配置文件中fs.default.name属性的内容,第二个参数就是指明你要把HDFS挂在到哪个本地目录下。
下面我们通过HIVE创建一张表,看看结果怎样
[gpadmin1@hadoop5 hive-0.6.0]$ bin/hive
Hive history file=/tmp/gpadmin1/hive_job_log_gpadmin1_201106011136_744854986.txt
hive> CREATE TABLE u_tmp1 ( id1 INT,
> id2 int
> )
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY ',';
OK
Time taken: 11.985 seconds
hive>
[gpadmin1@hadoop5 hive]$ pwd
/home/gpadmin1/joe.wangh/hive/hive --这个就是刚才我们挂载HDFS时用的目录
看一下HDFS的根目录下有哪些文件夹
[gpadmin1@hadoop5 hive]$ ls
hive home tmp user
对比一下通过hadoop命令查看的情况,发现是一致的
[gpadmin1@hadoop5 hive]$ hadoop fs -ls /
Found 4 items
drwxr-xr-x - gpadmin1 supergroup 0 2011-06-01 11:37 /hive
drwxr-xr-x - gpadmin1 supergroup 0 2011-05-31 11:45 /home
drwxr-xr-x - gpadmin1 supergroup 0 2011-05-30 16:20 /tmp
drwxr-xr-x - gpadmin1 supergroup 0 2011-05-30 16:19 /user
由于通过HIVE的文件保存在HDFS根目录下的hive目录下,我们进去看看
[gpadmin1@hadoop5 hive]$ cd hive
[gpadmin1@hadoop5 hive]$ ls
u_tmp1 wh1
OK,刚刚创建的表u_tmp1是存在的