自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 数据仓库建设规范

版本编号 V1.0发布日期 2017-07-19作 者 赵国明发布范围 产研大数据团队目 录1 数据架构概述 21.1 原始数据层(ODS) 31.2 数据仓库层(DW) 31.3 数据集市层 (DM) 42 数据库命名规范 43 表命名规范 53.1 整体原则 53.2 原始数据层表命名规范 53.3 数据仓库层表命名规范 53.4 数据集市层 64 字段命名规范 74.1 整体原则 71 数据架构概述数据仓库架构分三层:原始数据层(ODS)、数据仓库层(DW

2020-09-25 15:08:50 1064

原创 数据倾斜解决办法

Hive数据常见的倾斜问题和解决办法转自:https://blog.csdn.net/xinzhi8/article/details/71455883操作:关键词 情形 后果Join其中一个表较小,但是key集中分发到某一个或几个Reduce 上的数据远高于平均值大表与大表,但是分桶的判断字段0值或空值过多 这些空值都由一个reduce处理非常慢group bygroup by 维度过小,某值的数量过多处理某值的reduce非常耗时Count Distinct

2020-09-25 15:00:18 252

原创 Kafka随笔日记

afka是一款基于发布和订阅的消息系统。一般被称为分布式提交日志或分布式流平台。Kafka系统是按照一定的顺序持久化保存的,可以按需读取。Kafka的数据单元被称为消息。类似于数据库中表的一行记录,消息由字节组成,所以没有特别的格式和含义。消息有一个可选的元数据,就是键,键也是一个字节数组。当消息以一种可控的方式写入分区时,会用到键,最简单的方式就是为键生成一个散列值,然后使用散列值对主题的分区属进行取模。这样可以保证具有相同键的消息总是会写到相同的分区。批次时一组消息,这些消息属于同一个主题和分区

2020-09-25 13:40:33 104

原创 数仓随笔--flume工具

Flume概述3.1、Flume概念Flume 是一个分布式、高可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据,同时,Flume 提供对数据的简单处理,并写到各种数据接收方的能力。1、 Apache Flume 是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统,和Sqoop 同属于数据采集系统组件,但是 Sqoop 用来采集关系型数据库数据,而 Flume 用来采集流动型数据。2、 Flume 名字来源于原始的近乎实时的日志数据采集工具,现在被广泛用于任何流事

2020-09-22 19:07:51 282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除