前言
apache开源元数据管理平台组件
外链:
https://blog.csdn.net/hshudoudou/article/details/123899947
https://www.modb.pro/db/116857
安装前环境准备
- hadoop 3.1.0
- hbase 2.3.4
- hive 3.1.3
- solr 7.7.3
- zookeeper 3.5.7
- kafka
- 2.11-2.4.1
- atlas 2.3.0
大数据组件准备
提示:apache组件历史版本下载地址https://archive.apache.org/dist/组件名字
例如:hadoop:https://archive.apache.org/dist/hadoop
- hadoop安装部署
-
下载地址 https://archive.apache.org/dist/hadoop
-
配置
-
- 编辑 hadoop-env.sh,设置JAVA_HOME环境变量
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.312.b07-1.el7_9.x86_64/jre
-
- 编辑hdfs-site.xml文件
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/tool/hadoop-3.1.3/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/tool/hadoop-3.1.3/tmp/dfs/data</value> </property>
</configuration>
-
- 编辑yarn-site.xml文件
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
- 启动
cd sbin
start-dfs.sh start-yarn.sh
start-all.sh
- zookeeper安装部署
-
下载地址 https://archive.apache.org/dist/zookeeper
-
配置
-
- zoo.example.cfg 改为 zoo.cfg
- 在zoo.cfg里配置
dataDir=/opt/tool/apache-zookeeper-3.5.7-bin/data logDir=/opt/tool/apache-zookeeper-3.5.7-bin/log
- 启动
zkServer.sh start
- kafka安装部署
- 下载地址 https://archive.apache.org/dist/kafka
- 配置
<!-- 编辑server.properties --> listeners=PLAINTEXT://10.58.97.4:9092 broker.id=1
<!-- 如果不是本机的zookeeper,还需要配置zookeeper.properties文件 -->
- 启动
cd bin ./kafka-server-start.sh -daemon ../config/server.properties
- hbase安装部署
-
下载地址
-
配置
-
- hbase-env.sh文件最后追加
export HBASE_MANAGES_ZK=false // 不使用自己的zookeeper
-
- hbase-site.xml中添加
<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.wal.provider</name>
<value>filesystem</value>
</property>
- 启动
start-hbase.sh
- Solr安装部署
-
下载地址
-
配置
-
- 创建系统用户 solr
sudo useradd solr //增加solr用户
echo solr | sudo passwd --stdin solr /设置密码为solr
- - 修改 solr 目录的所有者为 solr 用户
sudo chown -R solr:solr /opt/module/solr
- 启动
注意:启动前需要先启动zookeeper
sudo -i -u solr /opt/module/solr/bin/solr start
出现 **Happy Searching! **字样表明启动成功。
访问 web 页面,默认端口为 8983,http://localhost:8983
- hive安装部署
-
下载地址
-
配置
-
- hive-site.xml文件 配置mysql信息
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://ip:port/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8&useSSL=false</value>`
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>username</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>password</value>
</property>
<property>
<name>hive.exec.post.hooks</name>
<value>org.apache.atlas.hive.hook.HiveHook</value>
</property>
</configuration>
-
- hive-env.sh文件
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.312.b07-1.el7_9.x86_64/jre
- 启动
schematool -dbType mysql -initSchema // 初始化hive到mysql中 hive --version // 先检查hive版本(配置环境变量/etc/profile) hive --service metastore &
Atlas集成
- 源码编译
mvn clean -DskipTests package -Pdist
- Apache Atlas集成HBase
-
在atlas-application.properties中配置
-
atlas.graph.storage.backend=hbase2 atlas.graph.storage.hbase.table=apache_atlas_janus atlas.graph.storage.hostname=localhost:2181 atlas.graph.storage.hbase.regions-per-server=1 atlas.graph.storage.lock.wait-time=10000
拷贝hbase的配置文件hbase-site.xml到atlas的conf/hbase
-
修改atlas的环境变量配置信息,添加hbase的配置文件目录
vi atlas-env.sh export HBASE_CONF_DIR=指向上面一步的路径,hbase-site.xml的路径
- Apache Atlas集成Solr
- 默认是配置solr cloud,由于实验是单机环境部署,改为http模式:
atlas.graph.index.search.backend=solr
atlas.graph.index.search.solr.mode=http
atlas.graph.index.search.solr.http-urls=http://localhost:8983/solr
- 将Apache Atlas自带的Solr文件夹拷贝到外部Solr相应目录下,并重命名为atlas_conf
cp -rf solr 目标路径 全目标路径solr create -c vertex_index -d /atlas_conf
- Solr页面验证
- Apache Atlas集成Kafka
- 修改Notification Configs
atlas.notification.embedded=false
atlas.kafka.data=/Users/shaozhipeng/Development/pseudo/kafka/kafka-logs atlas.kafka.zookeeper.connect=localhost:2181
atlas.kafka.bootstrap.servers=localhost:9092 kafka地址
atlas.kafka.zookeeper.session.timeout.ms=4000
- Apache Atlas Server其它配置
- 修改Server Properties
atlas.rest.address=http://localhost:21000 atlas.server.run.setup.on.start=false atlas.audit.hbase.tablename=apache_atlas_entity_audit atlas.audit.zookeeper.session.timeout.ms=1000 atlas.audit.hbase.zookeeper.quorum=localhost:2181
- 修改atlas-log4j.xml,去掉注释
<appender name="perf_appender" class="org.apache.log4j.DailyRollingFileAppender">
<logger name="org.apache.atlas.perf" additivity="false">
- Apache Atlas 集成 Hive
其主要工作是同步各服务(主要是 Hive)的元数据,并构建元 数据实体之间的关联关系,然后对所存储的元数据建立索引,最终未用户提供数据血缘查看及元数据检索等功能。
Atlas 在安装之初,需手动执行一次元数据的全量导入,后续 Atlas 便会利用 Hive Hook 增量同步 Hive 的元数据。
hook-bin/import-hive.sh 这个文件在 distro/target/apache-atlas-2.0.0-hive-hook
按提示输入用户名:admin;输入密码:admin
Enter username for atlas :- admin
Enter password for atlas :- admin
等待片刻,出现以下日志,即表明导入成功
Hive Meta Data import was successful!!!
atlas的配置文件atlas-application.properties
######### Hive Hook Configs ####### atlas.hook.hive.synchronous=false atlas.hook.hive.numRetries=3 atlas.hook.hive.queueSize=10000 atlas.cluster.name=primary
修改hive的配置文件,hive的目录,不是atlas的
<property>
<name>hive.exec.post.hooks</name>
<value>org.apache.atlas.hive.hook.HiveHook</value>
</property>
- 启动Atlas服务
atlas_start.py 启动服务 atlas_stop.py 停止服务
看到 Apache Atlas Server started!!! 即为启动成功,访问web 21000端口进入管理页面 (可能会有延迟)
用户名密码:admin/admin
注意: 有的时候启动成功了也进不去web页面,请排查每个服务的日志报错