Apache Atlas 2.3.0 安装部署

最新推荐文章于 2024-04-21 20:49:29 发布

勤奋的快乐码农

最新推荐文章于 2024-04-21 20:49:29 发布

阅读量854

点赞数 2

文章标签： apache hadoop 大数据

本文链接：https://blog.csdn.net/weixin_49539577/article/details/132193221

版权

前言

apache开源元数据管理平台组件

外链：

https://blog.csdn.net/hshudoudou/article/details/123899947

https://www.modb.pro/db/116857

安装前环境准备

hadoop 3.1.0
hbase 2.3.4
hive 3.1.3
solr 7.7.3
zookeeper 3.5.7
kafka
2.11-2.4.1
atlas 2.3.0

大数据组件准备

提示：apache组件历史版本下载地址https://archive.apache.org/dist/组件名字

例如：hadoop：https://archive.apache.org/dist/hadoop

hadoop安装部署

下载地址 https://archive.apache.org/dist/hadoop
配置
1. 编辑 hadoop-env.sh，设置JAVA_HOME环境变量

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.312.b07-1.el7_9.x86_64/jre

1. 编辑hdfs-site.xml文件

<configuration>     
    <property>         
        <name>dfs.replication</name>         
        <value>1</value>     
    </property>     
    <property>        
        <name>dfs.namenode.name.dir</name>        
       <value>file:/opt/tool/hadoop-3.1.3/tmp/dfs/name</value>     
    </property>     
    <property>         
        <name>dfs.datanode.data.dir</name>         
        <value>file:/opt/tool/hadoop-3.1.3/tmp/dfs/data</value>      </property> 
</configuration>

1. 编辑yarn-site.xml文件

<configuration>
    <property>        
        <name>yarn.nodemanager.aux-services</name>        
        <value>mapreduce_shuffle</value>    
    </property> 
</configuration>

启动

cd sbin 
start-dfs.sh start-yarn.sh
start-all.sh

zookeeper安装部署

下载地址 https://archive.apache.org/dist/zookeeper
配置
1. zoo.example.cfg 改为 zoo.cfg
2. 在zoo.cfg里配置

dataDir=/opt/tool/apache-zookeeper-3.5.7-bin/data logDir=/opt/tool/apache-zookeeper-3.5.7-bin/log

启动

zkServer.sh start

kafka安装部署

下载地址 https://archive.apache.org/dist/kafka
配置

<!-- 编辑server.properties --> listeners=PLAINTEXT://10.58.97.4:9092 broker.id=1 
<!-- 如果不是本机的zookeeper，还需要配置zookeeper.properties文件 -->

启动

cd bin ./kafka-server-start.sh -daemon ../config/server.properties

hbase安装部署

下载地址
配置
- hbase-env.sh文件最后追加

export HBASE_MANAGES_ZK=false // 不使用自己的zookeeper

- hbase-site.xml中添加

<property>   
    <name>hbase.cluster.distributed</name> 
    <value>true</value> 
</property>
<property>  
    <name>hbase.wal.provider</name>  
    <value>filesystem</value>
</property>

启动

start-hbase.sh

Solr安装部署

下载地址
配置
- 创建系统用户 solr

sudo useradd solr    //增加solr用户
echo solr | sudo passwd --stdin solr    /设置密码为solr
- - 修改 solr 目录的所有者为 solr 用户
sudo chown -R solr:solr /opt/module/solr

启动

注意：启动前需要先启动zookeeper

sudo -i -u solr /opt/module/solr/bin/solr start

出现 **Happy Searching! **字样表明启动成功。

访问 web 页面，默认端口为 8983，http://localhost:8983

hive安装部署

下载地址
配置
- hive-site.xml文件配置mysql信息

<configuration>   
    <property>     
        <name>javax.jdo.option.ConnectionURL</name>        
        <value>jdbc:mysql://ip:port/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8&useSSL=false</value>`  
    </property>   
    <property>        
        <name>javax.jdo.option.ConnectionDriverName</name>        
        <value>com.mysql.jdbc.Driver</value>   
    </property>   
    <property>        
        <name>javax.jdo.option.ConnectionUserName</name>         
        <value>username</value> 
    </property>  
    <property>         
        <name>javax.jdo.option.ConnectionPassword</name>         
        <value>password</value>   
    </property>   
    <property>     
        <name>hive.exec.post.hooks</name>         
        <value>org.apache.atlas.hive.hook.HiveHook</value>    
    </property> 
</configuration>

- hive-env.sh文件

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.312.b07-1.el7_9.x86_64/jre

启动

schematool -dbType mysql -initSchema // 初始化hive到mysql中 hive --version // 先检查hive版本（配置环境变量/etc/profile） hive --service metastore &

Atlas集成

源码编译

mvn clean -DskipTests package -Pdist

Apache Atlas集成HBase

在atlas-application.properties中配置

atlas.graph.storage.backend=hbase2
atlas.graph.storage.hbase.table=apache_atlas_janus
atlas.graph.storage.hostname=localhost:2181
atlas.graph.storage.hbase.regions-per-server=1
atlas.graph.storage.lock.wait-time=10000

拷贝hbase的配置文件hbase-site.xml到atlas的conf/hbase

修改atlas的环境变量配置信息，添加hbase的配置文件目录

vi atlas-env.sh export HBASE_CONF_DIR=指向上面一步的路径，hbase-site.xml的路径

Apache Atlas集成Solr

默认是配置solr cloud，由于实验是单机环境部署，改为http模式：

atlas.graph.index.search.backend=solr
atlas.graph.index.search.solr.mode=http
atlas.graph.index.search.solr.http-urls=http://localhost:8983/solr

将Apache Atlas自带的Solr文件夹拷贝到外部Solr相应目录下，并重命名为atlas_conf

cp -rf solr 目标路径 全目标路径solr create -c vertex_index -d /atlas_conf

Solr页面验证

Apache Atlas集成Kafka

修改Notification Configs

atlas.notification.embedded=false
atlas.kafka.data=/Users/shaozhipeng/Development/pseudo/kafka/kafka-logs atlas.kafka.zookeeper.connect=localhost:2181
atlas.kafka.bootstrap.servers=localhost:9092 kafka地址
atlas.kafka.zookeeper.session.timeout.ms=4000

Apache Atlas Server其它配置

修改Server Properties

atlas.rest.address=http://localhost:21000 atlas.server.run.setup.on.start=false atlas.audit.hbase.tablename=apache_atlas_entity_audit atlas.audit.zookeeper.session.timeout.ms=1000 atlas.audit.hbase.zookeeper.quorum=localhost:2181

修改atlas-log4j.xml，去掉注释

<appender name="perf_appender" class="org.apache.log4j.DailyRollingFileAppender">
    <logger name="org.apache.atlas.perf" additivity="false">

Apache Atlas 集成 Hive

其主要工作是同步各服务（主要是 Hive）的元数据，并构建元数据实体之间的关联关系，然后对所存储的元数据建立索引，最终未用户提供数据血缘查看及元数据检索等功能。

Atlas 在安装之初，需手动执行一次元数据的全量导入，后续 Atlas 便会利用 Hive Hook 增量同步 Hive 的元数据。

hook-bin/import-hive.sh 这个文件在 distro/target/apache-atlas-2.0.0-hive-hook

按提示输入用户名：admin；输入密码：admin

Enter username for atlas :- admin

Enter password for atlas :- admin

等待片刻，出现以下日志，即表明导入成功

Hive Meta Data import was successful!!!

atlas的配置文件atlas-application.properties

######### Hive Hook Configs ####### atlas.hook.hive.synchronous=false atlas.hook.hive.numRetries=3 atlas.hook.hive.queueSize=10000 atlas.cluster.name=primary

修改hive的配置文件，hive的目录，不是atlas的

<property>  
    <name>hive.exec.post.hooks</name>  
    <value>org.apache.atlas.hive.hook.HiveHook</value>
</property>

启动Atlas服务

atlas_start.py 启动服务 atlas_stop.py 停止服务

看到 Apache Atlas Server started!!! 即为启动成功，访问web 21000端口进入管理页面（可能会有延迟）

用户名密码：admin/admin

注意：有的时候启动成功了也进不去web页面，请排查每个服务的日志报错

勤奋的快乐码农

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Apache Atlas 2.3.0 安装部署

其主要工作是同步各服务（主要是 Hive）的元数据，并构建元数据实体之间的关联关系，然后对所存储的元数据建立索引，最终未用户提供数据血缘查看及元数据检索等功能。hook-bin/import-hive.sh 这个文件在 distro/target/apache-atlas-2.0.0-hive-hook。Atlas 在安装之初，需手动执行一次元数据的全量导入，后续 Atlas 便会利用 Hive Hook 增量同步 Hive 的元数据。修改hive的配置文件，hive的目录，不是atlas的。
复制链接

扫一扫