自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 数据仓库的分层思考

一、数据运营层:ODS(Operational Data Store) “面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。 一般来讲,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。二、数据仓库层:DW(Data W

2021-03-03 11:46:07 991

原创 大数据开发中的数据倾斜

什么是数据倾斜:由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点数据倾斜的表现:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。 单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大 于平均时长。数据倾斜的原因:A:key 分布不均匀B:业务数据本身的特性C:建表考虑不周全D:某些 HQL 语句本身就存在数据倾斜数据倾斜产生的情形:

2021-03-02 11:56:08 188

原创 使用JAVA连接spark

1、导入pom文件?xml version=“1.0” encoding=“UTF-8”?project xmlns=“http://maven.apache.org/POM/4.0.0” xmlns:xsi=“http://www.w3.org/2001/XMLSchema-instance”xsi:schemaLocation=“http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd”modelV

2021-01-11 09:03:36 1411

原创 使用javaAPI实现MAPREDUCE

创建3个类就可以了1、 MAP.CLASSimport org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;//前2个为map方法的入口(行号,内容),后两个为map方法的出口public cla

2021-01-11 08:55:27 267

原创 使用Java程序计算一个人至今活过的天数

思想:1、初始年份下一年和终止年的前一年,这样整数年的天数可以计算出来。2、初始年,出去当月剩余的天数可以计算出来。3、终止年,除去当月,已经度过的天数。4、初始年的当月剩余多少天代码...

2020-10-07 14:34:41 401

原创 数组插值

思想:1、从头开始,遍历循环数组的每一个元素。2、遇到字节码比输入字符大的字符,停下3、将该字符以及其之后的所有字符向后移动一位。4、空出的位置,用控制台输入的字符赋值。5、程序结束。...

2020-10-07 14:25:15 1578

原创 使用JAVA输出一个菱形

思想:1、使用二重循环。2、外循环控制循环的行数;3、内存循环先控制空格的输出,再控制符号*的输出。

2020-10-07 14:06:48 871 1

原创 插入排序

插入算法的步骤:1、从第一个元素开始,该元素可以认为已经被排序2、取出下一个元素,在已经排序的元素序列中从后向前扫描3、如果该元素(已排序)大于新元素,将该元素移到下一位置4、重复步骤3,直到找到已排序的元素小于或者等于新元素的位置5、将新元素插入到该位置后6、重复步骤2~5例题:...

2020-10-07 13:34:00 83

原创 选择排序

高阶排序之选择排序定义:选择排序(Selection sort)是一种简单直观的排序算法。它的工作原理是每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完。例题:...

2020-10-07 13:23:17 75

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除