yxg181-CSDN博客

原创数据仓库的分层思考

一、数据运营层：ODS（Operational Data Store） “面向主题的”数据运营层，也叫ODS层，是最接近数据源中数据的一层，数据源中的数据，经过抽取、洗净、传输，也就说传说中的 ETL 之后，装入本层。本层的数据，总体上大多是按照源头业务系统的分类方式而分类的。一般来讲，为了考虑后续可能需要追溯数据问题，因此对于这一层就不建议做过多的数据清洗工作，原封不动地接入原始数据即可，至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。二、数据仓库层：DW（Data W

2021-03-03 11:46:07 991

原创大数据开发中的数据倾斜

什么是数据倾斜：由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点数据倾斜的表现：任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面，发现只有少量 reduce 子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大，通常达到好几倍之多，最长时间远大于平均时长。数据倾斜的原因：A：key 分布不均匀B：业务数据本身的特性C：建表考虑不周全D：某些 HQL 语句本身就存在数据倾斜数据倾斜产生的情形：

2021-03-02 11:56:08 188

原创使用JAVA连接spark

1、导入pom文件?xml version=“1.0” encoding=“UTF-8”?project xmlns=“http://maven.apache.org/POM/4.0.0” xmlns:xsi=“http://www.w3.org/2001/XMLSchema-instance”xsi:schemaLocation=“http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd”modelV

2021-01-11 09:03:36 1411

原创使用javaAPI实现MAPREDUCE

创建3个类就可以了1、 MAP.CLASSimport org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;//前2个为map方法的入口（行号，内容），后两个为map方法的出口public cla

2021-01-11 08:55:27 267