自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 数仓建模分层详解

数仓各层详解文章目录数仓各层详解前言一、数据引入层(ODS)二、明细粒度事实层DWD明细粒度事实表设计原则明细粒度事实表整体设计流程明细粒度事实层(DWD)规范公共汇总粒度事实层(DWS)公共汇总事实表设计原则进行DWS层设计时还需遵循以下原则:公共汇总事实表规范公共维度汇总层(DIM)定以维度前言了解数仓各层有什么功能,是面试中考察的重点,其实这本来也是每个做数仓的都必须清楚的事情。得了解各层是如何划分的,或者说各层是依据什么来划分的一、数据引入层(ODS)ODS(Operational D

2022-04-07 20:57:41 2510

原创 Kafka 消息传递语义 Exactly Once(精准一次) 相关知识

消息传递语义:消息传递语义一共有三种,至少一次(at least once),至多一次(at most once ) 以及精准一次(exactly once )kafka 默认实现了前两种Kafka中如何配置呢?如果只用kafka的来实现的话设置ack=0就是至少一次 ack=-1是至多一次 默认是ack=1 ack=1就是leader副本相应ack就行 ,而ack=-1是指所有副本都需要确认收到才继续下一次生产数据。而ack=-1也有可能造成数据的丢失,当我们ISR(同步副本队列)中只有lead

2022-04-07 14:19:06 2558

原创 Python Mapreduce实例——去重

任务目标1.准确理解mapreduce去重的设计原理2.熟练掌握mapreduce去重的程序编写3.学会自己编写MapReduce去重代码解决实际问题相关知识“数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现...

2019-08-25 14:47:24 2478 1

原创 Hadoop伪分布模式安装

Hadoop伪分布模式安装目标1、熟练掌握Hadoop伪分布模式安装流程系统环境Linux Ubuntu 16.04任务内容在只安装Linux系统的服务器上,安装Hadoop2.6.0伪分布模式。过程.1.首先来配置SSH免密码登陆SSH免密码登陆需要在服务器执行以下命令,生成公钥和私钥对此时会有多处提醒输入在冒号后输入文本,这里主要是要求输入ssh密码以及密码的放置位置。在...

2019-08-24 17:10:30 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除