自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

朱磊的博客

记录学习过程,写写工作日常

  • 博客(17)
  • 资源 (1)
  • 论坛 (1)
  • 收藏
  • 关注

原创 Spark 的一些名词术语

摘抄官网关于 Spark 中常用的一些名词术语:TermMeaningApplicationUser program built on Spark. Consists of a driver program and executors on the cluster.Application jarA jar containing the user’s Spark ap...

2019-06-28 14:47:19 429

转载 java 为什么要重写 hashCode 和 equals 方法

转自:https://blog.csdn.net/zknxx/article/details/53862572一、如果不被重写(原生)的 hashCode 和 equals 是什么样的?不被重写(原生)的 hashCode 值是根据内存地址换算出来的一个值。不被重写(原生)的 equals 方法是严格判断一个对象是否相等的方法(object1 == object2)。二、为什么需要重写...

2019-06-27 16:44:11 315

翻译 Spark 共享变量

翻译 Spark 共享变量部分的官方文档(Spark 2.4.3)。通常,当传递给 Spark 操作 (如 map 或 reduce ) 的函数在远程集群节点上执行时,在函数中使用的所有外部变量都是单独拷贝的变量副本。这些变量被复制到每台机器上,对远程机器上的变量更新不会传播回驱动程序。支持通用的、任务间的读写共享变量是很低效的。不过,Spark确实为两种常见的使用模式提供了两种有限的共享变量类...

2019-06-27 14:41:54 807

原创 Intellij IDEA 清除无用 import 快捷键以及自动清除设置

windows 系统下快捷键设置都在:File -> Settings -> Keymap 下面,入下图所示,设置清除无用 import 的 key 时 optimize imports,windows 下默认快捷键的值为:ctrl + alt + o :如果要设置自动清除这些无用导入,可以在:File -> Settings -> Editer -> Gener...

2019-06-27 08:18:24 31093 1

原创 Spark 的 cogroup 和 join 算子

cogroup 这个算子使用的频率很低,join 算子使用频率较高,两者都是根据两个 RDD 的 key 进行关联。具体看下面的代码,先看下面的 2 个 RDD:SparkConf conf = new SparkConf() .setAppName("co") .setMaster("local"); JavaSp...

2019-06-26 18:02:10 830

原创 Spark SQL 中 UDF 和 UDAF 的使用

Spark SQL 支持 Hive 的 UDF(User defined functions) 和 UDAF(User defined aggregation functions)UDF 传入参数只能是表中的 1 行数据(可以是多列字段),传出参数也是 1 行,具体使用如下:/** * 拼接一行中两列字段,数据类型一个为长整型,一个为字符串 * Created by zhulei on 2...

2019-06-26 15:08:22 725

原创 Mac 上启动开启 sshd 服务

问题:用 ssh 远程连接 Mac 电脑时候出现 ssh: connect to host localhost port 22: Connection refused 拒绝连接的错误。解决方案:1,首先看一下本地是否开启了 sshd 服务:~ ps auwx | grep sshd发现 sshd 服务已经开启了,如果没开启请自行开启 sshd 服务再看情况;2,由于服务已经开启,但我...

2019-06-26 14:16:56 2867

原创 ssh 远程连接的两种验证方式

SSH 为 Secure Shell 的缩写,由 IETF 的网络小组(Network Working Group)所制定;SSH 为建立在应用层基础上的安全协议。其目的是实现安全远程登录以及其它安全网络服务。从客户端来看,SSH提供两种级别的安全验证。一种是基于口令的安全验证,另一种是基于密钥的安全验证。分别看一下两种验证方式的过程。一、基于口令的验证1,客户端向服务端发起登录请求:ssh...

2019-06-26 12:02:31 1609 1

原创 git 指令:丢弃本地所有未提交的更改

指令:git clean -df //丢弃所有 untracked 的文件git reset --hard //将 tracked 的文件重置到前一个版本

2019-06-26 08:39:08 7032

原创 Spark:failure: ``union'' expected but `(' found

问题:Spark 1.5.1 本地使用 SQLContext 报错:failure: ``union'' expected but `(' found这个报错在位置在开窗函数执行语句处。原因及解决方法:从 Spark 2.0 开始,Spark SQL 才本地实现了开窗函数(SPARK-8641),在 Spark 2.0 之前要使用开窗函数,必须使用 HiveContext 去操作。同...

2019-06-24 10:43:23 848

原创 社保查询或者转移的一些事

上海查询社保的网站:上海一网通办一,养老保险:养老保险缴纳的费用分成两部分,一部分是个人缴纳的,这部分钱进入个人账户,可以随你的工作城市转移,另一部分是公司缴纳的,这部分钱不会进个人账户,会打到当地统筹账户中,用于退休老人养老金的领取(这里好坑,单位缴纳的很多,是你工资的 20%)。2019 年 6 月 20 日,目前的规定是:确定职工退休年龄。 普通职工是女性满50岁可退休,机关企事业单位...

2019-06-20 22:09:17 359

原创 从 MapReduce 的运行机制看它为什么比 Spark 慢

在 Hadoop1 中,MapReduce 计算框架即负责集群资源的调度,还负责 MapReduce 程序的运行。MapReduce 的运行过程有三个关键进程:1,大数据应用进程。这是用户启动的 MapReduce 程序进程,主要是指定 Map 和 Reduce 类、输入输出文件路径等,并提交作业给 Hadoop 集群的 JobTracker 进程。2,JobTracker 进程。这是 Ha...

2019-06-16 14:23:07 523

原创 Yarn 的组成及其工作流程

在 Hadoop1 中 MapReduce 框架即负责集群的资源调度,还负责 MapReduce 程序的运行。由于这种架构资源调度和计算高度耦合,导致了一个 Hadoop 集群中只能跑 MapReduce 计算任务,无法跑其它的计算任务,维护成本很高。在后面的 Hadoop2 中改成了 Yarn + MapReduce 架构,将资源的调度工作交给了 Yarn,MapReduce 只负责计算。这样...

2019-06-16 14:20:40 1064

原创 ShuffleManager 原理

在 Spark 的源码中,负责 shuffle 过程的执行、计算、处理的组件主要是 ShuffleManager。在 Spark 1.2 以前,默认的 shuffle 计算引擎是 HashShuffleManager。该 ShuffleMananger 有一个非常严重的弊端,就是会产生大量的磁盘文件,进而有大量的磁盘 IO 操作,比较影响性能。因此在 Spark 1.2 之后,默认的 Shuf...

2019-06-11 16:19:44 576

原创 Spark 解决数据倾斜的几种常用方法

数据倾斜是大数据计算中一个最棘手的问题,出现数据倾斜后,Spark 作业的性能会比期望值差很多。数据倾斜的调优,就是利用各种技术方案解决不同类型的数据倾斜问题,保证 Spark 作业的性能。一,数据倾斜原理一个 Spark 作业,会根据其内部的 Action 操作划分成多个 job,每个 job 内部又会根据 shuffle 操作划分成多个 stage,然后每个 stage 会分配多个 tas...

2019-06-06 16:13:29 1817 2

原创 Spark 中一些常见的 troubleshooting

记录一些常见的 Spark 作业里的 troubleshooting。1,shuffle reduce 端缓冲大小导致的 OOM在 shuffle 过程中,reduce 端在拉取 map 端的数据时,每个 task 会有自己的 缓冲区用来存放每次拉取的数据,这个缓冲区默认是 48M。如果 map 端产生的数据量非常大,并且 map 端的写入数据非常快,那么这时候 reduce 端的所有 ta...

2019-06-04 21:30:20 215

原创 Spark 的 Yarn-cluster 模式和 Yarn-client 模式

Spark 支持 Yarn 集群的部署模式,在 Spark On Yarn 模式下,每个 Spark 的 Executor 作为一个 Yarn container 在运行,同事支持多个任务在同一个 container 中运行。Yarn 的 Application Master 概念:在 Yarn 中,每个 application 都有一个 Application 都有一个 Application...

2019-06-04 17:47:05 459

TabHostDemo

Android FragmentTabHost轻松实现微博主界面,相关解释在我的博客中:http://blog.csdn.net/zzz_zzz_z/article/details/51481378

2016-05-26

Android studio注册广播接收器的问题!

发表于 2015-09-25 最后回复 2015-09-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除