自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数仓分层哪四层?作用都是什么?

ods层:数据来源及建模方式:各业务系统的源数据,物理模型与业务模型一致;服务领域: 为其它逻辑层提供数据;数据ETL过程描述:把业务数据抽取落地成文本文件,再装载到数据仓库ods层,不做清洗转化。功能:1)ods是数仓准备区2)为dwd提供原始数据3)减少对业务系统影响建模方式及原则:数据保留时间根据实现业务需求而定;可以分表进行周期性存储,存储周期不长;从业务系统以增量方式抽取加载到ods;数据模型与粒度与业务系统一致(3NF)。dwd层:数据来源及建模方式:数据来自于ods

2020-06-11 20:09:23 5974

原创 apache hive增量和全量的理解

一,全量和增量我们写数据,会不会就需要保存数据呢?为了保证一份数据丢失不会影响到,就需要备份多份,备份时就需要同步,同步就分为全量和增量。二,全量和增量的区别1,全量全量是每天定时(避开业务高峰期)或者周期性全量吧数据从一个地方拷贝到另一个地方;全量的话可以采用直接全部覆盖(使用“新”数据覆盖“旧”数据)或者走更新逻辑(覆盖前判断下,如果新旧不一致就更新)。2,增量增量的基础是全量,就是用某种方式先将全量数据拷贝过来,然后采用增量方式同步更新,增量是指抓取某个时刻(更新时间)或者检查点(chec

2020-06-11 19:52:08 5880

原创 Apache Hive之基础建表查表

1

2020-06-11 19:16:47 199

原创 Apache Hive--小白带你对hive进行理解并且配置安装

一,什么是hivehive是基于Hadoop的一个数据仓库工具,用来进行数据提取,转化,加载。它是一种可以存储,查询和分析存储Hadoop中的大规模数据

2020-06-09 20:14:06 254

原创 linux系统下配置免密

在很多情况下,安装或者运行进程时,都提醒输入密码,就感觉很麻烦,这里就我们自己设置免密登录。linux命令:第一步:ssh-keygen -t rsa -P ''第一步配置时会出现一个需要你输入的地方,不要管它直接enter。配置好会显示如下图片:第二步:进入创建的公钥:cd /root/.ssh然后显示所有文件(ls)将id_rsa.pub更名为authorized_keys,并且设置权限:cat id_rsa.pub >> authorized_keyschmod 600 au

2020-06-09 14:28:05 461

原创 elasticsearch——认识理解

一,elasticsearch简介elasticsearch时基于lucene的分源分布搜索引擎,能够大幅度降低pb级海量数据存储,检索,分析门槛elastic search的特点:分布式实时文件存储,检索,分析零配置,集群自动发现索引自动分片,...

2020-06-07 16:30:31 130

原创 hadoop理解小项目:hdfs

通过对项目的深入理解,掌握Hadoop。一,创建ideal项目create project ->选择maven->选择apache-maven-quickly进入文件创建,(其余自己配置)进入ideal。在pom配置中,依赖包需要hadoop-hdfs和hadoop-common,去maven官网找到对应的依赖包,选对版本。根据上图文件的结构创建客户端(myclient),服务器(myservice),hdfs中的读和写(myReadAndWrite)二,MyReadAndWrit

2020-06-04 18:24:33 261

原创 linux安装jdk,maven,tomcat,mysql

一,准备环境1.jdk-8u111-linux-x64.tar.gz2.apache-maven-3.6.1-bin.tar.gz3.apache-tomcat-8.5.54.tar.gz将上述的三个压缩包导入linux虚拟盘中的指定位置我这里是将三个压缩包放到我的opt文件夹中。在opt文件夹中创建一个新的文件夹soft,将解压的三个文件都放到soft文件夹中,:tar -zxf 压缩文件名mv 解压的文件夹 soft/新的文件名二,配置jdk首先进入jdk文件夹,然后pwd查询文件所

2020-06-02 19:58:13 176

原创 hadoop的介绍和安装

一、谷歌公司的三驾马车 互联网企业的技术人员通常有两个大的方向,一个是做大规模高并发的线上服务,另外一个是做大数据分析,本文介绍大数据分析的鼻祖型论文“谷歌三驾马车”。这包括处理分布式数据的mapreduce、存储大量数据的gfs以及列式存储bigtable,当前流行的大数据技术都是在谷歌发表了这三大论文以后,不断的发展起来的,典型的就是Apache开源的hadoop和hbase,其中hadoop的mapreduce和hdfs的思想来源于谷歌mapreduce和gfs论文,而hbase来源于谷歌的bigt

2020-06-01 16:46:31 219

原创 Linux安装与使用(二)

安装mysql最新版本的linux开始,默认mariadb,而mariable 与mysql冲突,检查是否安装,若已安装,卸载mariable,顺序进行如下步骤:1、 rpm -qa | grep mariable2、 rpm -e --nodeps mariadb-libs-5.5.65-1.el7.x86_643、 yum install -y wget(下载wget)4、 wget http://repo.mysql.com/mysql-community-release-el7-5.noa

2020-05-19 08:49:18 192

原创 Linux安装和使用——(一)

初识Linux在这里就不具体介绍Linux的理论知识了,主要是为了将自己每天学习的东西,心得体会都写到自己的博客上。自己可以复习,别人可以借鉴。本人是刚开始学习的小白,希望写的文章其他小白可以借鉴。一 windows系统下安装Linux虚拟机(1)安装软件安装VirtualBox软件,安装成功后,打开。(2)下载linux镜像在www.baidu.com中搜寻centos7 镜像,找到进入,点击进入阿里云站点:我们下载CentOS-7-x86_64-DVD-2003.iso这个镜像。(

2020-05-13 22:44:14 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除