- 博客(3)
- 收藏
- 关注
原创 Spark开发问题解决(二):累加器的错误使用——错误的值或空值
在spark开发中,我们有时需要在多个executor端对某些数据进行累加,这时候我们首先就会想到使用自定义累加器来实现。下面记录一下在使用自定义累加器中需要注意的点。1、累加器值未累加我们都知道,spark中的rdd是惰性计算的,在没有遇到action算子之前是并没有真正开始计算的,也就是说累加器没有真正的进行累加。所以遇到这种情况的朋友,先检查一下是否没有进行action计算。2、累加器值进行多次累加通常情况下,我们在使用spark时会对一个RDD进行多次计算。比如说我们根据源数据创建了一.
2020-08-12 15:11:22 645
原创 Spark开发问题解决(一):序列化报错 java.io.notSerializableException: org.apache.spark.SparkContext
序列化问题产生背景在写Spark的应用时,经常会碰到序列化的问题。例如,在Driver端的程序中创建了一个对象,而在各个Executor中会用到这个对象 ——由于Driver端代码与Executor端的代码运行在不同的JVM中,甚至在不同的节点上,因此必然要有相应的序列化机制来支撑数据实例在不同的JVM或者节点之间的传输。一般来说这个问题的出现都是在map或者filter等算子中使用了外部的变量或者方法,但是这个变量或者方法本身不支持序列化,所以依然会导致整个类序列化时出现问题,最终导致出现tas
2020-08-12 14:46:32 2807 1
原创 数据仓库详解及分层理论
目录数据仓库定义数据仓库的特点数据仓库的作用数据仓库与传统数据库的区别数据仓库的架构数据仓库的要求什么是数据仓库分层数据仓库分层的原因数据仓库具体的分层说明数据仓库定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用使用。数据仓库的特点面向主题的:数据仓库都是基于某个明确的主题,仅需要与该主题相关的数据,其他的无关细节将会被去掉。 集成的
2020-07-15 13:47:07 1800
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人