自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Spark开发问题解决(二):累加器的错误使用——错误的值或空值

在spark开发中,我们有时需要在多个executor端对某些数据进行累加,这时候我们首先就会想到使用自定义累加器来实现。下面记录一下在使用自定义累加器中需要注意的点。 1、累加器值未累加 我们都知道,spark中的rdd是惰性计算的,在没有遇到action算子之前是并没有真正开始计算的,也就是说累加器没有真正的进行累加。所以遇到这种情况的朋友,先检查一下是 否没有进行action计算。 2、累加器值进行多次累加 通常情况下,我们在使用spark时会对一个RDD进行多次计算。比如说我们根据源数据创建了一.

2020-08-12 15:11:22 615

原创 Spark开发问题解决(一):序列化报错 java.io.notSerializableException: org.apache.spark.SparkContext

序列化问题产生背景 在写Spark的应用时,经常会碰到序列化的问题。例如,在Driver端的程序中创建了一个对象,而在各个Executor中会用到这个对象 —— 由于Driver端代码与Executor端的代码运行在不同的JVM中,甚至在不同的节点上,因此必然要有相应的序列化机制来支撑数据实例在不同的JVM或者节点之间的传输。 一般来说这个问题的出现都是在map或者filter等算子中使用了外部的变量或者方法,但是这个变量或者方法本身不支持序列化,所以依然会导致整个类序列化时出现问题,最终导致出现tas

2020-08-12 14:46:32 2705 1

原创 数据仓库详解及分层理论

目录数据仓库定义数据仓库的特点数据仓库的作用数据仓库与传统数据库的区别数据仓库的架构数据仓库的要求什么是数据仓库分层数据仓库分层的原因数据仓库具体的分层说明 数据仓库定义 数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用使用。 数据仓库的特点 面向主题的:数据仓库都是基于某个明确的主题,仅需要与该主题相关的数据,其他的无关细节将会被去掉。 ​ 集成的

2020-07-15 13:47:07 1562

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除