![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 74
爱搞技术的吴同学
和时间做朋友,向他唠叨我们的经历和成才
展开
-
大数据-azkaban全流程调度(六)
一、Azkaban 的安装及配置1.1 环境准备1.1.1 数据库准备将安装包上传到指定目录/opt/software/azkaban解压将db文件解压,里面有个all相关的sql:将sql文件导入到数据库:1.1.2 azkaban的服务端配置将azkaban-exec的那个压缩包解压到:修改 azkaban.properties 文件# Azkaban Personalization Settingsazkaban.name=Testazkaban.lab原创 2021-04-02 22:32:39 · 488 阅读 · 0 评论 -
大数据-数仓分层之DWD
一、DWD层描述原创 2021-02-24 08:55:12 · 2611 阅读 · 0 评论 -
大数据-数仓分层之DWT
一、DWT层描述原创 2021-02-24 08:54:51 · 843 阅读 · 0 评论 -
大数据-数仓分层之DWS
一、DWS层描述原创 2021-02-24 08:54:27 · 1076 阅读 · 0 评论 -
大数据-数仓分层之ADS
一、ADS层描述原创 2021-02-24 08:54:09 · 2869 阅读 · 0 评论 -
大数据-数仓分层之ODS
一、ODS层描述原创 2021-01-16 21:12:32 · 2248 阅读 · 0 评论 -
大数据-数仓分层(五)
一、数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名1.3.2 脚本命名1.3.3 表字段类型二、数仓理论2.1 关系建模与维度建模2.1.1 关系建模2.1.2 维度建模2.2 维度表和事实表2.2.1 维度表2.2.2 事实表2.3 数据仓库建模2.3.1 ODS 层2.3.2 DWD 层2.3.3 DWS 层2.3.4 DWT 层2.3.5 ADS 层三、Hive 环境准备3.1 Hive 引擎简介3.2 Hi原创 2021-01-16 21:11:37 · 2013 阅读 · 0 评论 -
大数据-业务数据采集(四)
一、电商项目的大致流程1.1 电商业务表结构本电商数仓系统涉及到的业务数据表结构关系。这 24 个表以订单表、用户表、SKU 商品表、活动表和优惠券表为中心,延伸出了优惠券领用表、支付流水表、活动订单表、订单详情表、订单状态表、商品评论表、编码字典表退单表、SPU 商品表等,用户表提供用户的详细信息,支付流水表提供该订单的支付详情,订单详情表提供订单的商品数量等情况,商品表给订单详情表提供商品的详细信息。本次讲解只以此 24 个表为例,实际项目中,业务数据库中表格远远不止这些。二、业务数据生成原创 2021-01-11 23:25:52 · 1018 阅读 · 0 评论 -
大数据-zookeeper学习
一、zookeeper的基本概念原创 2021-01-04 11:36:25 · 477 阅读 · 0 评论 -
大数据-kafka学习
一、kafka基本概念原创 2021-01-04 11:36:11 · 277 阅读 · 0 评论 -
大数据-日志数据采集(三)
数据采集环境Zookeeper集群kafka集群flume集群zookeeper环境搭建zookeeper的基本概念Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。原创 2021-01-04 11:35:53 · 613 阅读 · 0 评论 -
大数据-hadoop3.1.3的安装(二)
hadoop安装与搭建集群规划服务器 hadoop102服务器 hadoop103服务器 hadoop104HDFSNameNode DataNodeDataNodeDataNode SecondaryNameNodeYarnNodeManagerResourcemanager NodeManagerNodeManager环境准备依旧是前面搭建jdk环境的三台主机,为了之后集群之间的文件传输,所以之后会使用集群分发脚本,可以参考这篇博客:大数据-集群分发原创 2021-01-02 11:26:21 · 926 阅读 · 0 评论 -
大数据-JDK环境的安装(一)
环境准备虚拟机准备 三台虚拟机Centos7(有条件的是最好三台都是8G内存4核8线程的),最低配置要求4G、4核4线程,如果配置太低,后面hive on spark等计算会很卡; 创建虚拟机就不讲解(或者之后写一篇),可自行了解,最小化还是桌面级的安装都可以、保持网络通畅就行;网络配置 ping www.baidu.com;出现这样的就可以了,首先是查看自己的网卡配置:vim /etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethe原创 2021-01-02 11:25:03 · 270 阅读 · 1 评论 -
大数据-数仓学习总结与分享
学习大数据的契机原因 在学习之前的是一直在干java开发的,但是手头上有个比较大的项目,本来是到9月底的样子就应该结束的,但后面需求变更,导致系统需要大改,之前的那批人也都走的差不多了(几个团队一起开发),所以到后面系统的整体架构的任务就交到我手上来了。 刚开始还好,慢慢改整体逻辑架构,其中从其他人代码中也学到了很多东西,可是过了一个来月的开发周期,11月的时候,也开发的差不多了,后面很多都是简单的逻辑处理,而且写得我很安逸,几乎遇不到什么问题了,这个感觉很不爽,然后优化完一些sql,写了一些异步原创 2021-01-01 03:13:58 · 1038 阅读 · 0 评论 -
大数据-异常解决记录
资源问题yarn资源被占用报内存不足Container [pid=8468,containerID=container_1594198338753_0001_01_000002] is running 318740992B beyond the 'VIRTUAL' memory limit. Current usage: 111.5 MB of 1 GB physical memory used; 2.4 GB of 2.1 GB virtual memory used. Killing cont原创 2020-12-28 22:16:04 · 1651 阅读 · 0 评论 -
大数据-集群分发脚本
编写集群分发脚本xsync三台机器已做好域名解析(hadoop102、hadoop103、hadoop104)scp(secure copy)安全拷贝scp定义:scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)基本语法# 命令 递归 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称 scp -r $pdir/$fname $user@hadoop$host:$pdir/$原创 2020-12-28 17:03:51 · 197 阅读 · 0 评论