- 博客(9)
- 收藏
- 关注
原创 数据仓库的分层思考
一、数据运营层:ODS(Operational Data Store) “面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。 一般来讲,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。二、数据仓库层:DW(Data W
2021-03-03 11:46:07
991
原创 大数据开发中的数据倾斜
什么是数据倾斜:由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点数据倾斜的表现:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。 单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大 于平均时长。数据倾斜的原因:A:key 分布不均匀B:业务数据本身的特性C:建表考虑不周全D:某些 HQL 语句本身就存在数据倾斜数据倾斜产生的情形:
2021-03-02 11:56:08
188
原创 使用JAVA连接spark
1、导入pom文件?xml version=“1.0” encoding=“UTF-8”?project xmlns=“http://maven.apache.org/POM/4.0.0” xmlns:xsi=“http://www.w3.org/2001/XMLSchema-instance”xsi:schemaLocation=“http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd”modelV
2021-01-11 09:03:36
1411
原创 使用javaAPI实现MAPREDUCE
创建3个类就可以了1、 MAP.CLASSimport org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;//前2个为map方法的入口(行号,内容),后两个为map方法的出口public cla
2021-01-11 08:55:27
267
原创 使用Java程序计算一个人至今活过的天数
思想:1、初始年份下一年和终止年的前一年,这样整数年的天数可以计算出来。2、初始年,出去当月剩余的天数可以计算出来。3、终止年,除去当月,已经度过的天数。4、初始年的当月剩余多少天代码...
2020-10-07 14:34:41
401
原创 数组插值
思想:1、从头开始,遍历循环数组的每一个元素。2、遇到字节码比输入字符大的字符,停下3、将该字符以及其之后的所有字符向后移动一位。4、空出的位置,用控制台输入的字符赋值。5、程序结束。...
2020-10-07 14:25:15
1578
原创 插入排序
插入算法的步骤:1、从第一个元素开始,该元素可以认为已经被排序2、取出下一个元素,在已经排序的元素序列中从后向前扫描3、如果该元素(已排序)大于新元素,将该元素移到下一位置4、重复步骤3,直到找到已排序的元素小于或者等于新元素的位置5、将新元素插入到该位置后6、重复步骤2~5例题:...
2020-10-07 13:34:00
83
原创 选择排序
高阶排序之选择排序定义:选择排序(Selection sort)是一种简单直观的排序算法。它的工作原理是每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完。例题:...
2020-10-07 13:23:17
75
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人