自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

朱磊的博客

记录学习过程,写写工作日常

原创 Spark 的一些名词术语

摘抄官网关于 Spark 中常用的一些名词术语: Term Meaning Application User program built on Spark. Consists of a driver program and executors on the cluster. A...

2019-06-28 14:47:19

阅读数 227

评论数 0

转载 java 为什么要重写 hashCode 和 equals 方法

转自:https://blog.csdn.net/zknxx/article/details/53862572 一、如果不被重写(原生)的 hashCode 和 equals 是什么样的? 不被重写(原生)的 hashCode 值是根据内存地址换算出来的一个值。 不被重写(原生)的 equals...

2019-06-27 16:44:11

阅读数 160

评论数 0

翻译 Spark 共享变量

翻译 Spark 共享变量部分的官方文档(Spark 2.4.3)。 通常,当传递给 Spark 操作 (如 map 或 reduce ) 的函数在远程集群节点上执行时,在函数中使用的所有外部变量都是单独拷贝的变量副本。这些变量被复制到每台机器上,对远程机器上的变量更新不会传播回驱动程序。支持通用...

2019-06-27 14:41:54

阅读数 269

评论数 0

原创 Intellij IDEA 清除无用 import 快捷键以及自动清除设置

windows 系统下快捷键设置都在:File -> Settings -> Keymap 下面,入下图所示,设置清除无用 import 的 key 时 optimize imports,windows 下默认快捷键的值为:ctrl + alt + o : 如果要设置...

2019-06-27 08:18:24

阅读数 3584

评论数 0

原创 Spark 的 cogroup 和 join 算子

cogroup 这个算子使用的频率很低,join 算子使用频率较高,两者都是根据两个 RDD 的 key 进行关联。具体看下面的代码,先看下面的 2 个 RDD: SparkConf conf = new SparkConf() .setAppName("...

2019-06-26 18:02:10

阅读数 225

评论数 0

原创 Spark SQL 中 UDF 和 UDAF 的使用

Spark SQL 支持 Hive 的 UDF(User defined functions) 和 UDAF(User defined aggregation functions) UDF 传入参数只能是表中的 1 行数据(可以是多列字段),传出参数也是 1 行,具体使用如下: /** * 拼接...

2019-06-26 15:08:22

阅读数 224

评论数 0

原创 Mac 上启动开启 sshd 服务

问题: 用 ssh 远程连接 Mac 电脑时候出现 ssh: connect to host localhost port 22: Connection refused 拒绝连接的错误。 解决方案: 1,首先看一下本地是否开启了 sshd 服务: ~ ps auwx | grep sshd 发现...

2019-06-26 14:16:56

阅读数 459

评论数 0

原创 ssh 远程连接的两种验证方式

SSH 为 Secure Shell 的缩写,由 IETF 的网络小组(Network Working Group)所制定;SSH 为建立在应用层基础上的安全协议。其目的是实现安全远程登录以及其它安全网络服务。 从客户端来看,SSH提供两种级别的安全验证。一种是基于口令的安全验证,另一种是基于密钥...

2019-06-26 12:02:31

阅读数 323

评论数 0

原创 git 指令:丢弃本地所有未提交的更改

指令: git clean -df //丢弃所有 untracked 的文件 git reset --hard //将 tracked 的文件重置到前一个版本

2019-06-26 08:39:08

阅读数 1318

评论数 0

原创 Spark:failure: ``union'' expected but `(' found

问题: Spark 1.5.1 本地使用 SQLContext 报错: failure: ``union'' expected but `(' found 这个报错在位置在开窗函数执行语句处。 原因及解决方法: 从 Spark 2.0 开始,Spark SQL 才本地实现了开窗函数(SPARK-...

2019-06-24 10:43:23

阅读数 223

评论数 0

原创 社保查询或者转移的一些事

上海查询社保的网站:上海一网通办 一,养老保险: 养老保险缴纳的费用分成两部分,一部分是个人缴纳的,这部分钱进入个人账户,可以随你的工作城市转移,另一部分是公司缴纳的,这部分钱不会进个人账户,会打到当地统筹账户中,用于退休老人养老金的领取(这里好坑,单位缴纳的很多,是你工资的 20%)。 2019...

2019-06-20 22:09:17

阅读数 162

评论数 0

原创 从 MapReduce 的运行机制看它为什么比 Spark 慢

在 Hadoop1 中,MapReduce 计算框架即负责集群资源的调度,还负责 MapReduce 程序的运行。 MapReduce 的运行过程有三个关键进程: 1,大数据应用进程。这是用户启动的 MapReduce 程序进程,主要是指定 Map 和 Reduce 类、输入输出文件路径等,并提交...

2019-06-16 14:23:07

阅读数 195

评论数 0

原创 Yarn 的组成及其工作流程

在 Hadoop1 中 MapReduce 框架即负责集群的资源调度,还负责 MapReduce 程序的运行。由于这种架构资源调度和计算高度耦合,导致了一个 Hadoop 集群中只能跑 MapReduce 计算任务,无法跑其它的计算任务,维护成本很高。 在后面的 Hadoop2 中改成了 Yarn...

2019-06-16 14:20:40

阅读数 258

评论数 0

原创 ShuffleManager 原理

在 Spark 的源码中,负责 shuffle 过程的执行、计算、处理的组件主要是 ShuffleManager。 在 Spark 1.2 以前,默认的 shuffle 计算引擎是 HashShuffleManager。该 ShuffleMananger 有一个非常严重的弊端,就是会产生大量的磁盘...

2019-06-11 16:19:44

阅读数 380

评论数 0

原创 Spark 解决数据倾斜的几种常用方法

数据倾斜是大数据计算中一个最棘手的问题,出现数据倾斜后,Spark 作业的性能会比期望值差很多。数据倾斜的调优,就是利用各种技术方案解决不同类型的数据倾斜问题,保证 Spark 作业的性能。 一,数据倾斜原理 一个 Spark 作业,会根据其内部的 Action 操作划分成多个 job,每个 jo...

2019-06-06 16:13:29

阅读数 1019

评论数 2

原创 Spark 中一些常见的 troubleshooting

记录一些常见的 Spark 作业里的 troubleshooting。 1,shuffle reduce 端缓冲大小导致的 OOM 在 shuffle 过程中,reduce 端在拉取 map 端的数据时,每个 task 会有自己的 缓冲区用来存放每次拉取的数据,这个缓冲区默认是 48M。 如果 m...

2019-06-04 21:30:20

阅读数 102

评论数 0

原创 Spark 的 Yarn-cluster 模式和 Yarn-client 模式

Spark 支持 Yarn 集群的部署模式,在 Spark On Yarn 模式下,每个 Spark 的 Executor 作为一个 Yarn container 在运行,同事支持多个任务在同一个 container 中运行。 Yarn 的 Application Master 概念:在 Yarn...

2019-06-04 17:47:05

阅读数 137

评论数 0

提示
确定要删除当前文章?
取消 删除