今天在Linux安装了一下hue,安装之后可以在web页面直接写SQL语句,这样对于一下不太懂大数据的人来讲是挺方便的,hue是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。
其自身的功能包含有:
-
对HDFS的访问,通过浏览器来查阅HDFS的数据。
-
Hive编辑器:可以编写HQL和运行HQL脚本,以及查看运行结果等相关Hive功能。 提供Impala的应用进行数据交互查询。
-
支持Pig编辑器,并能够运行编写的脚本任务。
-
Oozie调度器,可以通过DashBoard来提交和监控Workflow、Coordinator以及Bundle。
-
支持HBase对数据的查询修改以及可视化。 支持对Metastore的浏览,可以访问Hive的元数据以及对应的HCatalog。
-
另外,还有对Job的支持,Sqoop,ZooKeeper以及DB(MySQL,SQLite,Oracle等)的支持。
如果在安装hue之后以上错误,这个一般是权限问题引起的,修改一下hadoop文件的所属用户和用户组,将自己普通用户下文件的所属用户和用户组也修改成自己的普通用户, 然后重新启动服务,刷新查看一下
注意这个也是需要修改一个hadoop里面的一个配置文件的
修改core-site.xml(path:/home/zxx/programs/hadoop/etc/hadoop/)
<property>
<name>hadoop.proxyuser.pirate.groups</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.pirate.hosts</name>
<value>*</value>
</property>
**修改完毕之后运行下面2个语句**
hdfs dfsadmin -refreshSuperUserGroupsConfiguration
yarn rmadmin -refreshSuperUserGroupsConfiguration
下面这个错误是由于当时将配置地址写成主机名了,所以造成的错误,直接写虚拟机的IP地址就可以了,当然如果写成主机名的话,也可以在Windows的hosts里面加上虚拟机的IP地址和主机名的映射关系,这样也是一种方式,不过最好还是建议直接使用IP地址,这样发生错误的几率比较低。
注意:修改配置文件之后,建议重新启动supervisor命令
因为目前学习的还不是太多,所有像pig、oozie、impla、hbase这些目前还没有配置,以上方法仅供参考,
登录成功之后就可以写SQL查询语句,管理HDFS了