15.4 在DataCleaner桌面端使用Hadoop
在DataCleaner 桌面端中,您可以处理位于HDFS上的CSV数据存储。
配置Hadoop集群
为了能够在Hadoop集群上从DataCleaner桌面端执行作业,您有许多配置选项,这些选项在选项对话框的Hadoop集群选项卡中进行管理。
-
默认
默认情况下,DataCleaner使用 HADOOP_CONF_DIR 和 YARN_CONF_DIR 环境变量来确定Hadoop/Yarn 配置文件(如core-site.xml and yarn-site.xml). -
使用配置目录
通过单击Add Hadoop cluster按钮,然后选择Using configuration directory,您可以通过添加包含Hadoop/Yarn配置文件的位置来注册其他Hadoop集群。 -
使用直接namenode连接
通过单击Add Hadoop cluster 按钮,然后选择Using direct namenode 连接,您可以使用其他Hadoop集群的文件系统URI(例如 hdfs://bigdatavm:9000/).
如果您添加了其他Hadoop集群,那么在HDFS上选择文件时,它首先会打开一个对话框,您可以在其中选择要从哪个Hadoop客户机中选择文件。
HDFS上的CSV数据存储
注册CSV数据存储时,您可以选择 “hdfs” 作为CSV源的方案。在路径字段中,您可以填写绝对路径,包括方案,例如 hdfs://bigdatavm:9000/datacleaner/customers.csv 或者HDFS上文件的相对路径,例如 /datacleaner/customers.csv。请注意,只有在设置了 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 环境变量时,相对路径才起作用(请参阅设置Spark和DataCleaner环境)。