- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 Spark之内存管理MemoryManager及统一内存管理源码分析
Spark MemoryManager1.MemoryManager接口1.1.概述在Spark中,MemoryManager接口定义了Storage内存和Execution内存统一管理分配的公共方法。包括堆内以及堆外内存。1.2.相关成员// 堆内Storage内存池protected val onHeapStorageMemoryPool = new StorageMemoryPo...
2020-04-23 08:51:52
270
原创 Spark Shuffler之SortShuffleManager实现及3种ShuffleWrite策略选择与源码分析
前序在Spark的历史版本中,对于Shuffle Manager有两种实现。在1.2版本之前的Hash Base Shuffler,以及从1.2版本开始后的基于Sort Base Shuffler。至于Hash Base Shuffler,目前以及被移除,也不是本文重点。本文主要介绍基于Sort Base Shuffler的3中Shuffler Write的选择策略,以及SortShuffleM...
2020-04-21 08:26:51
445
原创 有关单链表存在环的相关面试问题
有关单链表存在环的相关问题完整代码1.概述有关单链表存在环相关的问题比较经典,也是在面试中容易被问到的问题。在讨论这些问题前先简要的介绍一下链表的概念。单链表:单链表是一种链式存取的数据结构,用一组地址任意的存储单元存放线性表中的数据元素。每个结点的构成:元素(数据元素的映象) + 指针(指示后继元素存储位置),元素就是存储数据的存储单元,指针就是连接每个结点的地址数据。在一个单向...
2020-03-23 09:16:05
142
原创 通过ClassLoader动态加载class文件
1. ClassLoader与classpathClassLoader:类加载器,在Java程序中用于实现类的加载动作,但是其作用远远不限于类加载。在Java中提供了3种ClassLoader分别用于加载不同的Jar包。classpath:简单来说,classpath就是每个ClassLoader加载class文件时,寻找class的地方。比如Java中提供的3种ClassLoader其都有...
2020-03-17 09:30:32
2071
原创 比pgload更快更方便写入大数据量至Greenplum的Greenplum-Spark Connector
前序Greenplum是目前比较优秀的mpp数据库,其官方推荐了几种将外部数据写入Greenplum方式,包含:通用的Jdbc,pgcopy和pgload以及Pivotal Greenplum-Spark Connector等。Jdbc:Jdbc方式,写大数据量会很慢。pgcopy:其中pgcopy是及其不推荐的一种,因为其写数据必须经过Greenplum的master,因此也只建议小数据...
2020-03-08 16:54:09
2893
4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人