Spark
文章平均质量分 93
大数据私房菜
这个作者很懒,什么都没留下…
展开
-
Hive/Spark小文件解决方案(企业级实战)
程序产生小文件的原因程序运行的结果最终落地有很多的小文件,产生的原因: 读取的数据源就是大量的小文件 动态分区插入数据,会产生大量的小文件,从而导致map数量剧增 Reduce/Task数量较多,最终落地的文件数量和Reduce/Task的个 数是一样的 小文件带来的影响 文件的数量决定了MapReduce/Spark中Mapper/Task数量,小文件越多,Mapper/Task的任务越多,每个Map...原创 2021-02-03 19:41:15 · 886 阅读 · 0 评论 -
Spark之task序列化问题
一 问题现象二本质原因 封装数据的bean没有实现序列化 封装数据的bean需要写入本地磁盘和在网络中传输,没有实现序列化出出错 rdd的算子中传入的函数用到了外部引用类型,且没有实现序列化 本质原因的Task是在Driver端生成的,函数也是在Driver端定义的,但是真正执行是需要将Task和Task中引用都序列化,如果有没法序列化的,就会出现Task没有序列化异常三案例3.1在Driver端初始化一个ObjectDriver初始化一个ob...原创 2020-08-17 20:04:00 · 362 阅读 · 0 评论 -
Spark处理数据倾斜,您读懂了吗?
前言本文是介绍的是开发spark极其核心的地方,可以说懂得解决spark数据倾斜是区分一个spark工程师是否足够专业的标准,在实际开发中,几乎天天面临这个问题。原理以及现象先来解释一下,出现什么现象的时候我们认定他为数据倾斜,以及他数据倾斜发生的原理是什么?比如一个spark任务中,绝大多数task任务运行速度很快,但是就是有那么几个task任务运行极其缓慢,慢慢的可能就接着报内存溢出的问题了,那么这个时候我们就可以认定他是数据倾斜了。接下来说一下发生数据倾斜的底层理论,其实可以非常肯原创 2020-06-16 09:18:01 · 742 阅读 · 0 评论 -
spark之distinct去重原理
distinct算子原理:贴上spark源码: /** * Return a new RDD containing the distinct elements in this RDD. */ def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope ...原创 2020-04-08 15:17:04 · 2299 阅读 · 0 评论 -
windows安装pyspark
1.下载pyspark-2.3.1.tar.gzhttps://archive.apache.org/dist/spark/spark-2.3.1/2.安装pip3installpypandoc-ihttp://pypi.douban.com/simple/--trusted-hostpypi.douban.compip3 install D:\softDownL...原创 2020-04-01 14:35:58 · 986 阅读 · 0 评论 -
spark.yarn.archive spark.yarn.jars
参考自:http://spark.apache.org/docs/latest/running-on-yarn.html#preparations在spark on yarn模式下,/usr/local/spark-current2.3/conf下的spark-defaults.conf配置文件有一个spark.yarn.archive配置项1.如果没有配置#spark.yarn.a...原创 2020-03-25 16:32:38 · 1348 阅读 · 0 评论 -
SparkSql -join及写入mysql
package com.wedoctor.sparksqlimport java.io.InputStreamimport java.util.Propertiesimport com.typesafe.config.{Config, ConfigFactory}import org.apache.log4j.{Level, Logger}import org.apache.spa...原创 2019-07-28 20:57:00 · 469 阅读 · 0 评论 -
sparksql基础Demo代码
1.DataFrame1.1 Case class封装数据wc.txthello sparktom tom jimhello tom sparkpackage com.wedoctor.sparksqlimport org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org....原创 2019-07-28 20:03:40 · 961 阅读 · 0 评论 -
SparkStreaming mysql-checkpoint及redis-checkpoint
pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation...原创 2019-08-01 17:57:49 · 371 阅读 · 0 评论 -
Spark序列化
Spark默认序列化方式但是如果使用Spark中提供的序列化机制kryoSerializer 速度快,占用内存少,但是需要注册val conf: SparkConf = new SparkConf() .setMaster("local[2]") .setAppName(this.getClass.getSimpleName) .set("spa...原创 2019-07-26 21:27:18 · 315 阅读 · 0 评论 -
SparkStreaming消费Kafka的offset的管理方式
目录pom.xml1.自动提交偏移量(默认)2.手动提交偏移量3.Mysql管理偏移量3.1 建表语句3.2 配置文件3.3代码4.Redis管理偏移量pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/P...原创 2019-08-04 18:15:54 · 1563 阅读 · 0 评论 -
Spark Streaming学习教程
目录一 Spark Streaming介绍1.1 什么是Spark Streaming1.2 为什么要学习Spark Streaming1.3 Spark与Storm的对比二 DStream2.1 什么是Dstream2.2 DStream相关操作2.2.1 Transformation on DStreams2.2.2 Output Operations...原创 2018-08-06 22:07:55 · 1067 阅读 · 0 评论 -
Spark-on-Yarn
目录1 Spark-on-Yarn1.1 配置安装1.1.1 安装hadoop环境1.1.2 同步系统时间1.1.3 spark配置1.2 运行模式(cluster模式和client模式)1.3 原理1.4 总结SparkOnYarn2 Spark-HA集群1 Spark-on-Yarnyarn是hadoop中的一个组件,统一的资源调度平台。spar...原创 2018-10-09 11:17:02 · 767 阅读 · 0 评论 -
spark之groupByKey与reduceByKey
一.groupByKey默认的HashPartitioner:key的hashcode % 分区数量package com.weiyi.spark.batchimport org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, S...原创 2019-04-04 17:59:11 · 436 阅读 · 0 评论 -
Spark连接mysql的几种方式
1.sparkcore-jdbc// 获取mysql的连接 写入本地的mysql val url = "jdbc:mysql://hdp-01:3306/test?characterEncoding=utf-8" var conn: Connection = null var pstm1: PreparedStatement = null var pstm2...原创 2019-09-20 10:38:49 · 1503 阅读 · 0 评论 -
Spark基础
目录 1 Spark概述1.1 什么是Spark(官网:http://spark.apache.org)1.2 为什么要学习Spark1.3 Spark特点1.3.1 快1.3.2 易用1.3.3 通用1.3.4 兼容性2 Spark集群安装2.1 安装2.1.1 下载Spark安装包2.1.2 机器部署2.1.3 部署standalone集...原创 2018-08-14 22:14:24 · 491 阅读 · 0 评论