CDH6.x对应的Apache Atlas版本选择

一.CDH集群组件版本调研

现有大数据集群使用的是CDH 6.1.0版本,查看官方文档[1],可以查找到各组件的版本信息。

ComponentComponent VersionChanges Information
Apache Avro1.8.2Changes
Apache Flume1.8.0Changes
Apache Hadoop3.0.0Changes
Apache HBase2.1.1Changes
HBase Indexer1.5Changes
Apache Hive2.1.1Changes
Hue4.3.0Changes
Apache Impala3.1.0Changes
Apache Kafka2.0Changes
Kite SDK1.0.0 
Apache Kudu1.8.0Changes
Apache Solr7.4Changes
Apache Oozie5.0.0Changes
Apache Parquet1.9.0Changes
Parquet-format2.3.1Changes
Apache Pig0.17.0Changes
Apache Sentry2.1.0Changes
Apache Spark2.4Changes
Apache Sqoop1.4.7Changes
Apache ZooKeeper3.4.5Changes

 

二.Apache Atlas各版本对应的大数据组件调研

Apache Atlas目前有三个主要的版本,分别为0.8.x, 1.x, 2.x,官网没有直接给出各组件的版本,可以从github的源码[2]pom文件中找到各组件对应的版本

(1)Apache Atlas 0.8.x/1.2.x 对应的大数据各组件版本 [3]

<sqoop.version>1.4.6.2.3.99.0-195</sqoop.version>
<hive.version>1.2.1</hive.version>
<calcite.version>0.9.2-incubating</calcite.version>
<hadoop.version>2.7.1</hadoop.version>
<hbase.version>1.1.2</hbase.version>
<solr.version>5.5.1</solr.version>
<kafka.version>1.0.0</kafka.version>
<elasticsearch.version>5.6.4</elasticsearch.version>
<kafka.scala.binary.version>2.11</kafka.scala.binary.version>
<curator.version>2.11.0</curator.version>
<zookeeper.version>3.4.6</zookeeper.version>

<janus.version>0.3.1</janus.version>

(2)Apache Atlas 2.x 对应的大数据各组件版本 [4]

<hadoop.version>3.1.1</hadoop.version>

<hbase.version>2.0.2</hbase.version>

<solr.version>7.5.0</solr.version>
<hive.version>3.1.0</hive.version>
<kafka.version>2.0.0</kafka.version>
<kafka.scala.binary.version>2.11</kafka.scala.binary.version>
<calcite.version>1.16.0</calcite.version>
<zookeeper.version>3.4.6</zookeeper.version>
<falcon.version>0.8</falcon.version>
<sqoop.version>1.4.6.2.3.99.0-195</sqoop.version>
<storm.version>1.2.0</storm.version>

 

三. Apache Atlas版本选则及源码编译

从CDH 6.1.0 各组件版本和Apache Atlas依赖的各组件版本中可以看出,CDH 6.1.0和 Apache Atlas 2.0的匹配度较高,应该选则Apache Atlas 2.0版本作为实验版本进行测试。

从官网可以下载Apache Atlas 2.0.0的源代码,参考[5]中的安装文档对源码进行编译打包即可。

 

四.虚拟机测试

测试环境

基础环境版本
VMWare WorkStation15 Pro
OSCentOS 7
JDK1.8
MySql5.6

选则测试的大数据组件版本

ComponentVersion
Apache Hadoop3.0.3
Apache Hive2.1.1
Apache Hbase2.1.1
Apache Solr7.4.0
Apache Atlas2.0.0
Apache ZooKeeper3.4.10
Apache Kafka2.0.0

 

[1]CDH 6.1.0各组件版本文档

https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_61_packaging.html#concept_610_pack

[2]Apache Atlas源码网站

https://github.com/apache/atlas

[3] Apache Atlas release-1.2.0-rc3 pom file

https://github.com/apache/atlas/blob/release-1.2.0-rc3/pom.xml

[4] Apache Atlas release-2.0.0-rc2 pom file

https://github.com/apache/atlas/blob/release-2.0.0-rc2/pom.xml

[5] Apache Atlas安装文档

http://atlas.apache.org/InstallationSteps.html

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache Atlas是一个开源的数据治理和元数据管理平台,用于支持数据跟踪、数据流程管控、数据信任和数据合规性等任务。它提供了一套完整的数据治理解决方案,包括数据发现、数据分类、数据关系建模和元数据管理等功能。 CDH(Cloudera Distribution for Hadoop)是由Cloudera公司提供的一种分布式的Hadoop生态系统。CDH整合了许多Apache开源项目,如Hadoop、Hive、HBase等,以及Cloudera自己的一些增强功能,提供了一个完整的Hadoop解决方案。CDH可用于大规模数据处理和分析,并具备高可靠性、高可扩展性和高性能等特性。 Apache Atlas和CDH是可以进行整合使用的。Apache Atlas可以通过集成CDH,实现对CDH平台上的数据进行元数据管理和数据治理。具体来说,Apache Atlas可以通过自动识别CDH平台上的各种数据源,并将其元数据信息进行抓取和管理。同时,Apache Atlas可以通过数据分类和关系建模等功能,对这些数据进行进一步的理解和分析,帮助用户更好地管理和利用数据。 例如,Apache Atlas可以通过集成CDH中的Hive,自动发现并抓取Hive表的元数据信息,并提供搜索和浏览功能,方便用户查找和访问这些表。此外,Apache Atlas还支持定义和管理数据标签、数据血缘关系等功能,帮助用户更好地理解和追踪数据的来源和去向。 总之,Apache Atlas和CDH的整合可以帮助用户更好地进行数据治理和元数据管理,提升数据的价值和可信度,同时也提供了更强大的数据分析和处理能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值