developv001——PB离线数仓
developv001——PB离线数仓
yanqi_vip
strove with none, for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ——W.S.Landor
展开
-
SS00001.PBpositions——|PB级企业电商离线数仓|——|服务启动导航|
一、PB级别企业电商离线仓库:部署规划IP地址主机名第一台机器192.168.1.121Hadoop01第二台机器192.168.1.122Hadoop02第三台机器192.168.1.123Hadoop03第四台机器192.168.1.124Hadoop04第五台机器192.168.1.125Hadoop05...原创 2022-04-17 15:27:00 · 224 阅读 · 0 评论 -
SS00001.PBpositions——|Hadoop&PB级离线数仓.v01|——|Hadoop.v01|基础环境配置|
一、配置环境规划### --- vmware、linux版本~~~ vmware版本:VMware-workstation-full-15.5.5-16285975.exe~~~ Linux版本:CentOS-7-x86_64-DVD-1810.iso### --- Linux主机配置参数~~~ CPU:1块1核~~~ 内存:2GB...原创 2022-04-17 15:29:00 · 106 阅读 · 0 评论 -
SS00002.PBpositions——|Hadoop&PB级离线数仓.v02|——|Hadoop.v02|虚拟机环境准备|
一、Apache Hadoop 完全分布式集群搭建### --- 软件和操作系统版本~~~ Hadoop框架是采用Java语言编写,需要java环境(jvm)~~~ JDK版本:JDK8版本### --- 集群:~~~ 知识点学习:统一使用vmware虚拟机虚拟五台linux节点,linux操作系统:Centos7~~~ 项目阶段:统...原创 2022-04-17 15:30:00 · 85 阅读 · 0 评论 -
SS00003.PBpositions——|Hadoop&PB级离线数仓.v03|——|Hadoop.v03|环境变量配置|
一、集群规划hadoop1hadoop2hadoop3hadoop4hadoop5NameNode √SecondaryNameNode √DataNode √ √ √ √ √Resource...原创 2022-04-17 15:31:00 · 79 阅读 · 0 评论 -
SS00004.PBpositions——|Hadoop&PB级离线数仓.v04|——|Hadoop.v04|集群组件部署|
一、集群配置### --- Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置~~~ # HDFS集群配置~~~ 将JDK路径明确配置给HDFS(修改hadoop-env.sh)~~~ 指定NameNode节点以及数据存储目录(修改core-site.xml)~~~ 指定SecondaryName...原创 2022-04-17 15:31:00 · 101 阅读 · 0 评论 -
SS00005.PBpositions——|Hadoop&PB级离线数仓.v05|——|Hadoop.v05|rsync-script脚本编写|
一、分发配置:rsync-script命令详解### --- 编写集群分发脚本rsync-script~~~ # rsync 远程同步工具~~~ rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。~~~ rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对# 差异文件做更新。~~~ ...原创 2022-04-17 15:32:00 · 93 阅读 · 0 评论 -
SS00006.PBpositions——|Hadoop&PB级离线数仓.v06|——|Hadoop.v06|集群启动|单节点启动|
一、启动HDFS集群### --- 启动集群注意事项~~~ # 注意:如果集群是第一次启动,需要在Namenode所在节点格式化NameNode,~~~ # 非第一次不用执行格式化Namenode操作!!二、单节点启动:格式化NameNode### --- 单节点启动~~~ # 所有节点执行[root@hadoop01 ...原创 2022-04-17 15:33:00 · 102 阅读 · 0 评论 -
SS00007.PBpositions——|Hadoop&PB级离线数仓.v07|——|Hadoop.v07|集群测试|
一、集群测试### --- HDFS 分布式存储初体验~~~ # 从linux本地文件系统上传下载文件验证HDFS集群工作正常~~~ HDFS访问地址:http://hadoop01:50070/~~~ # 本地hoome目录创建一个文件[root@hadoop01 ~]# vim test.txthello hdfs~~~ #...原创 2022-04-17 15:33:00 · 77 阅读 · 0 评论 -
SS00008.PBpositions——|Hadoop&PB级离线数仓.v08|——|Hadoop.v08|历史日志服务配置|
一、配置历史服务器### --- 在Yarn中运行的任务产生的日志数据不能查看,~~~ 为了查看程序的历史运行情况,需要配置一下历史日志服务器。具体配置步骤如下:### --- 配置mapred-site.xml[root@hadoop01 ~]# vim /opt/yanqi/servers/hadoop-2.9.2/etc/hadoop/mapred-sit...原创 2022-04-17 15:34:00 · 85 阅读 · 0 评论 -
SS00009.PBpositions——|Hadoop&PB级离线数仓.v01|——|Hive.v01|安装配置|
一、Hive安装配置### --- 环境准备~~~ Hive官网:http://hive.apache.org~~~ 下载网址:http://archive.apache.org/dist/hive/~~~ 文档网址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual~~~ ...原创 2022-04-17 15:35:00 · 96 阅读 · 0 评论 -
SS00010.PBpositions——|Hadoop&PB级离线数仓.v02|——|Hive.v02|HiveServer2安装配置|
一、metastore远程模式配置规划:节点metastoreclientHadoop01√Hadoop02√Hadoop05√二、配置并启动HiveServer服务### --- 将Hadoop02 的 hive 安装文件拷贝到Hadoop01、Hadoop05并配置[root@hadoop02 serve...原创 2022-04-17 15:35:00 · 95 阅读 · 0 评论 -
SS00011.PBpositions——|Hadoop&PB级离线数仓.v01|——|Flume.v01|Flume.v1.9安装配置|
一、安装部署Flume### --- 安装部署~~~ Flume官网地址:http://flume.apache.org/~~~ 文档查看地址:http://flume.apache.org/FlumeUserGuide.html~~~ 下载地址:http://archive.apache.org/dist/flume/~~~ 选择的版本 1...原创 2022-04-17 15:35:00 · 86 阅读 · 0 评论 -
SS00012.PBpositions——|Hadoop&PB级离线数仓.v01|——|DataX.v01|部署安装|应用案例|
一、DataX概述及安装### --- DataX概述~~~ DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,~~~ 实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、~~~ MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效...原创 2022-04-17 15:36:00 · 159 阅读 · 0 评论 -
SS00013.PBpositions——|Hadoop&PB级离线数仓.v01|——|Hive on Tez.v01|Hive on Tez|部署安装|
一、Hive on Tez概述### --- Hive on Tez~~~ Hortonworks在2014年左右发布了Stinger Initiative,~~~ 并进行社区分享,为的是让Hive支持更多SQL,并实现更好的性能。~~~ 让Hive的查询功能更强大。增加类似OVER子句的分析功能,支持WHERE子查询,~~~ 以及调整Hiv...原创 2022-04-17 15:36:00 · 159 阅读 · 0 评论 -
SS00014.PBpositions——|Hadoop&PB级离线数仓.v01|——|Airflow.v01|安装部署|
一、Airflow安装部署### --- 安装依赖~~~ CentOS 7.X~~~ Python 3.5或以上版本(推荐)~~~ MySQL 5.7.x~~~ Apache-Airflow 1.10.11~~~ 虚拟机可上网,需在线安装包~~~ # 备注:后面要安装的三个软件Airflow、Atlas、Griffin...原创 2022-04-17 15:37:00 · 181 阅读 · 0 评论 -
SS00015.PBpositions——|Hadoop&PB级离线数仓.v02|——|Airflow.v02|修改默认时区|
一、修改时区### --- 修改时区~~~ Airflow默认使用UTC时间,在中国时区需要用+8小时。~~~ 将UTC修改为中国时区,需要修改Airflow源码。### --- 在修改 $AIRFLOW_HOME/airflow.cfg 文件(env) [root@hadoop02 ~]# vim /opt/yanqi/servers/airflow...原创 2022-04-17 15:37:00 · 236 阅读 · 0 评论 -
SS00016.PBpositions——|Hadoop&PB级离线数仓.v03|——|Airflow.v03|禁用默认的DAG任务|
一、Airflow.UI界面概述### --- Airflow.UI界面概述~~~ Trigger Dag:人为执行触发~~~ Tree View:当dag执行的时候,可以点入,查看每个task的执行状态(基于树状视图)。~~~ 状态:success、running、failed、skipped、retry、queued、no sta...原创 2022-04-17 15:38:00 · 183 阅读 · 0 评论 -
SS00017.PBpositions——|Hadoop&PB级离线数仓.v04|——|Airflow.v04|crontab简介及案例|
一、crontab### --- Crontab简介~~~ Linux 系统则是由 cron (crond) 这个系统服务来控制的。~~~ Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的。~~~ Linux 系统也提供了Linux用户控制计划任务的命令:crontab 命令。~~~ 日志文件:ll /var...原创 2022-04-17 15:39:00 · 89 阅读 · 0 评论 -
SS00018.PBpositions——|Hadoop&PB级离线数仓.v05|——|Airflow.v05|Airflow入门案例HelloWorld|
一、Airflow核心概念### --- Airflow核心概念~~~ DAGs:有向无环图(Directed Acyclic Graph),将所有需要运行的tasks按照依赖关系组织起来,~~~ 描述的是所有tasks执行的顺序;### --- Operators:Airflow内置了很多operators~~~ BashOperator 执...原创 2022-04-17 15:39:00 · 152 阅读 · 0 评论 -
SS00019.PBpositions——|Hadoop&PB级离线数仓.v01|——|Atlas.v01|安装配置|账户密码|
一、安装环境准备### --- 安装概述说明~~~ 重点讲解Atlas,不对Atlas的依赖组件做讲解,组件均采用单机模式安装。~~~ 编译才能安装。### --- 安装依赖~~~ Maven 3.6.3(完成)~~~ HBase 1.1.2(不需要安装,需要软件包)~~~ Solr 5.5.1(不需要安装,需要软件包)~...原创 2022-04-17 15:40:00 · 122 阅读 · 0 评论 -
SS00020.PBpositions——|Hadoop&PB级离线数仓.v02|——|Atlas.v02|Hive血缘关系导入|
一、Hive血缘关系导入### --- 配置HIVE_HOME环境变量;~~~ 将atlas服务下atlas-application.properties配置文件拷贝到hive服务目录下~~~ # 创建软连接:~~~ 将 $ATLAS_HOME/conf/atlasapplication.properties 拷贝到 $HIVE_HOME/conf...原创 2022-04-17 15:40:00 · 210 阅读 · 0 评论 -
SS00021.PBpositions——|Hadoop&PB级离线数仓.v03|——|Atlas.v03|Atlas与电商业务集成|血缘关系|
一、与电商业务集成### --- 电商业务集成环境准备~~~ 开发(建库、建表) => 导入数据 => 执行Hive脚本~~~ 导入Hive的血缘关系二、电商业务建表### --- 电商业务建表语句(可省略):~~~ # 创建DataBases;CREATE DATABASE ODS;CREATE DATABASE D...原创 2022-04-17 15:41:00 · 88 阅读 · 0 评论 -
SS00022.PBpositions——|Hadoop&PB级离线数仓.v01|——|Griffin.v01|Griffin部署&spark&livy&ES|
一、安装概述### --- 相关依赖:重点讲解 Griffin,不对依赖组件做过多讲解,所有组件均采用单机模式安装。~~~ JDK (1.8 or later versions)~~~ MySQL(version 5.6及以上)~~~ Hadoop (2.6.0 or later)~~~ Hive (version 2.x)~~~ ...原创 2022-04-17 15:41:00 · 103 阅读 · 0 评论 -
SS00023.PBpositions——|Hadoop&PB级离线数仓.v02|——|Griffin.v02|Griffin部署|
一、Griffin编译准备### --- 软件解压缩[root@hadoop02 ~]# ls /opt/yanqi/software/griffin-griffin-0.5.0.zip /opt/yanqi/software/griffin-griffin-0.5.0.zip [root@hadoop02 ~]# cd /opt/yanqi/software/[ro...原创 2022-04-17 15:42:00 · 144 阅读 · 0 评论 -
SS00024.PBpositions——|Hadoop&PB级离线数仓.v03|——|Griffin.v03|数据质量监控|
一、与电商业务集成### --- 数据资产:单击右上角的 DataAssets 来检查数据资产~~~ 这里的数据数据资产主要是保存在Hive上的表,要求 Hive Metastore 服务正常### --- 创建 measure~~~ 如果要测量源和目标之间的匹配率,请选择 Accuracy(精确度验证)~~~ 如果要...原创 2022-04-17 15:42:00 · 86 阅读 · 0 评论 -
SS00025.PBpositions——|Hadoop&PB级离线数仓.v04|——|Griffin.v04|数据可视化|
一、数据可视化### --- 数据可视化~~~ ADS => DataX => MySQL => 浏览器呈现~~~ 对统计数据进行展示一般都是以图、表方式呈现;~~~ 常见方式有 ECharts、HighCharts、G2、Chart.js 、FineBI等。~~~ 本项目使用SSM(Spring + SpringMVC...原创 2022-04-17 15:43:00 · 103 阅读 · 0 评论 -
SS00026.PBpositions——|Deployment|
NO:Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart ...原创 2022-04-17 15:43:00 · 64 阅读 · 0 评论