自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 数仓面试之Hive小文件过多问题

如果是新集群,没有历史遗留问题的话,建议hive使用 orc 文件格式,以及启用 lzo 压缩。这样小文件过多可以使用hive自带命令 concatenate 快速合并。

2023-11-10 16:34:15 283 1

原创 Spark 的Shuffle原理及调优

在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce,而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以,Hadoop中的shuffle性能的高低也会直接决定了整个程序的性能高低。具体Shuffle过程详解,如下:1MapTask收集我们的map()方法输出的kv对,放到内存缓冲区中。

2023-09-11 18:02:04 870

原创 hive中Distinct和group by去重的对比

在Hive中, DISTINCT和GROUP BY都可以用于去重,但是它们背后的实现方式是不同的,因此它们的效率也是不同的。GROUP BY会按照指定的逻辑条件将数据分组,并对每个分组进行统计,最后将分组的结果集合并在一起。DISTINCT是一种去重方法,它会扫描整个数据集,然后将重复的记录删除,只留下唯一的记录。GROUP BY也可以用于去重,但与DISTINCT不同,它可以在数据流中即时地进行去重处理,因此它的。GROUP BY 查询对空间的需求较小,因为其底层数据结构已经是去重的,因此可以。

2023-06-09 16:14:39 1461

原创 使用微信小程序云存储中的fileID渲染出错的解决

微信小程序中图片渲染出错

2023-03-12 20:04:58 1239 4

原创 scala 刷LeetCode题——1462. 课程表 IV

采用拓扑排序和递归算法实现了先修课程的问题,语言是scala。

2022-10-23 18:11:59 228

原创 Spring MVC 之自定义类型转换器

本文主要由一个字符串转换异常(HTTP Status 400 – Bad Request)出发,引出了自定义类型转换器,并实现了其功能。

2022-07-18 17:21:08 1460

原创 Hive常见查询操作与函数汇总

一、查询操作1、基本查询全表和特定列查询列别名算术运算符Limit语句2、Where语句比较运算符Like与RLike逻辑运算符3、Join语句表别名等值Join内连接左外连接右外连接满外连接多表连接迪卡尔积注意:连接谓词中不支持or4、分组Group By 语句Having语句5、排序全局排序(Order By)按照别名排序多个列排序内部排序(Sort By)分区排序(D...

2022-05-05 17:12:26 4251 2

原创 Logstash解析嵌套JSON格式数据&常见时间操作

嵌套Json格式数据JSON格式一有如下JSON日志(position下是一个JSON){ "RequestTime":1637737587605, "timestamp":"2021-11-24T15:06:42.681Z", "position":{ "LogType":"请求日志", "TopDirectory":"stream_ad_v1", "RequestIp":"127.0.0.1" }}将其.

2021-11-30 18:29:25 7867

原创 Java简单编程题(包括:随机数的生成)

目录小问题大学问Java随机数1、java.util.Random.nextInt2、java.util.Random.ints(Java 8)3、java.lang.Math.random()小问题大学问最近看到一个简单的编程题,描述如下:创建一个长度为8的int型数组,要求取值为1-30,同时元素值各不相同。当时心中对题大致描述了编程思路,1、给arr[i]赋值2、如果arr[i]已经与前面重复,则重新给arr[...

2021-11-20 17:18:12 681

原创 Spark Core学习之常用算子(含经典面试题)

前言在 Spark Core中,RDD(Resilient Distributed Dataset,弹性分布式数据集) 支持 2 种操作:1、transformation从一个已知的 RDD 中创建出来一个新的 RDD 。例如: map就是一个transformation。2、action在数据集上计算结束之后, 给驱动程序返回一个值.。例如: reduce就是一个action。 本文只讲述Transformation,至于A...

2021-10-27 12:12:08 1509

原创 Java常见JDK8日期时间API的概述和实操

前言 在本篇文章中,作者会向读者演示以下Java中的日期时间API的使用:java.util.Date类 java.text.SimpleDateFormat类 java.util.Calendar(日历)类 java.time(LocalDate、LocalTime、LocalDateTime) java.time.format.DateTimeFormatter 类 其他API 说明: 1、 java.u...

2021-10-17 12:23:18 724

原创 详解:Java多线程(主要内容:四种创建方式、线程安全问题、线程通讯、线程的生命周期以及线程池)

目录一、Java多线程的四种创建方式继承Thread类实现Runnable接口实现Callable接口使用线程池二、解决线程安全的三种方式同步代码块同步方法Lock锁三、有关线程的知识补给站一、Java多线程的四种创建方式继承Thread类继承Thread类的操作步骤:创建一个继承于Thread类的子类 重写Thread类的run()方法 --> 将此线程执行的操作声明在run()中 创建Thread类的子类的对象 通过此对象调用s.

2021-09-20 14:39:09 446

原创 详解:二叉排序树(二叉查找树)的代码实现——Scala

二叉排序树(Binary Sort Tree),又称二叉查找树(Binary Search Tree),亦称二叉搜索树。是数据结构中的一类。在一般情况下,查询效率比链表结构要高。二叉排序树的定义一棵空树,或者是具有下列性质的二叉树:(1)若左子树不空,则左子树上所有结点的值均小于它的根结点的值;(2)若右子树不空,则右子树上所有结点的值均大于它的根结点的值;(3)左、右子树也分别为二叉排序树;(4)没有键值相等...

2021-09-04 17:16:43 2126

原创 MD5加密算法解释——Java简单应用(java.security.MessageDigest)

MD5解释MD5消息摘要算法(英语:MD5 Message-Digest Algorithm),一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。MD5由罗纳德·李维斯特设计,于1992年公开,用以替换MD4算法。MD5在MD4的基础上增加了"安全带"(safety-belts)的概念。虽然MD5比MD4复杂度大一些,但却更为安全。 知识补给:1、MD4算法需要填补信息以确...

2021-08-27 17:24:38 10411 2

原创 Hive日期格式转换详解(包含13位时间戳转毫秒时间)

固定日期转换成时间戳select unix_timestamp('2016-08-16','yyyy-MM-dd') --1471276800select unix_timestamp('20160816','yyyyMMdd') --1471276800select unix_timestamp('2016-08-16T10:02:41Z', "yyyy-MM-dd'T'HH:mm:ss'Z'") --147131296116/Mar/2017:12:25:01 +0800 转成正常格式(yyy

2021-08-23 00:30:50 20054

原创 IDEA下载源码报连接被拒绝Connection refused to host: 127.0.0.1

问题描述IDEA点击Download sources 报错:Caused by: java.rmi.ConnectException: Connection refused to host: 127.0.0.1;nested exception is:java.net.ConnectException: Connection refused: connect报错信息如下图:解决方法解决方法一般有两个,设置正确jdk,再点击 Download so...

2021-08-13 15:40:36 7860 4

原创 Azkaban页面上传不了zip文件

本文环境:VMware12、azkaban-2.5.0问题描述登入Azkaban页面端,上传job描述文件的zip,发现页面依旧显示No flows have been uploaded to this project yet,如图所示:解决方法由于我是在win10上使用360压缩将test1.job文件压缩的,所有出现了无法上传的问题,我们可以将文件上传到Linux系统中,用zip命令打包,再下载到本地,即可成功上传。//打包命令[root@node003 ~]# zip t.

2021-08-11 15:02:46 2504 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除