DataCleaner---15.4 在DataCleaner桌面端使用Hadoop

15.4 在DataCleaner桌面端使用Hadoop

在DataCleaner 桌面端中,您可以处理位于HDFS上的CSV数据存储。

配置Hadoop集群

为了能够在Hadoop集群上从DataCleaner桌面端执行作业,您有许多配置选项,这些选项在选项对话框的Hadoop集群选项卡中进行管理。
hadoop_options_clusters

  • 默认
    默认情况下,DataCleaner使用 HADOOP_CONF_DIR 和 YARN_CONF_DIR 环境变量来确定Hadoop/Yarn 配置文件(如core-site.xml and yarn-site.xml).

  • 使用配置目录
    通过单击Add Hadoop cluster按钮,然后选择Using configuration directory,您可以通过添加包含Hadoop/Yarn配置文件的位置来注册其他Hadoop集群。

  • 使用直接namenode连接
    通过单击Add Hadoop cluster 按钮,然后选择Using direct namenode 连接,您可以使用其他Hadoop集群的文件系统URI(例如 hdfs://bigdatavm:9000/).

如果您添加了其他Hadoop集群,那么在HDFS上选择文件时,它首先会打开一个对话框,您可以在其中选择要从哪个Hadoop客户机中选择文件。

HDFS上的CSV数据存储

注册CSV数据存储时,您可以选择 “hdfs” 作为CSV源的方案。在路径字段中,您可以填写绝对路径,包括方案,例如 hdfs://bigdatavm:9000/datacleaner/customers.csv 或者HDFS上文件的相对路径,例如 /datacleaner/customers.csv。请注意,只有在设置了 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 环境变量时,相对路径才起作用(请参阅设置Spark和DataCleaner环境)。
hadoop_register_datastore


点这儿返回DataCleaner文档主目录

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值