15.5 Hadoop接口的限制
虽然DataCleaner的Hadoop接口允许在Hadoop平台上分布式运行DataCleaner作业,但有一些限制:
-
数据存储支持
目前,我们支持来自HDFS的一组有限的源数据存储。CSV文件是这里的主要来源。我们要求HDFS上的文件是UTF8编码的,并且只出现单行值。 -
不可分配组件
一些组件本质上是不可分配的。如果您的作业依赖于这些,DataCleaner将求助于在单Spark执行器上执行作业,这可能会对性能产生重大影响。 -
没有Namenode的Hadoop发行版
一些Hadoop发行版(比如MapR)已经用其他东西代替了Namenode的概念。这基本上是好的,但这确实意味着 username+port 的文件路径显然不起作用。