spark
文章平均质量分 70
zuoseve01
搬运工
展开
-
Spark3-AQE-数据倾斜Join优化
Adaptive Query Exection(自适应查询计划)简称AQE,在最早在spark 1.6版本就已经有了AQE;到了spark 2.x版本,intel大数据团队进行了相应的原型开发和实践;到了spark 3.0时代,AQE终于面向用户可以使用了注:以下代码分析基于Spark3.0.1版本1 Join的自适应数据倾斜处理代码位于sql.core模块的org.apache.spark.sql.execution.adaptive.OptimizeSkewedJoin主要原理就是基.转载 2021-02-24 15:09:37 · 1228 阅读 · 0 评论 -
sparksql读取parquet格式hive表的配置
使用sparksql访问几个hive表join的情况时结果为空,且这个sql在hive里执行是成功的。 val sparkSession = SparkSession .builder() .config("jars","lib/*") .appName("Spark Hive Example") .enableHiveSupport() .getOrCreate() sparkSession.sql("select t1.转载 2021-01-22 14:29:51 · 680 阅读 · 0 评论 -
pyspark建立RDD以及读取文件成dataframe
(2)pyspark建立RDD以及读取文件成dataframe目录别人的相关代码文件:https://github.com/bryanyang0528/hellobi/tree/master/pysparkTop~~1、启动spark(1)SparkSession是 Spark SQL 的入口。(2)通过SparkSession.builder来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。Builder 是 ...转载 2021-01-05 00:36:38 · 721 阅读 · 0 评论 -
关于RDD的打印输出 collect 和 foreach print
Printing elements of an RDDAnother common idiom is attempting to print out the elements of an RDD using rdd.foreach(println) or rdd.map(println). On a single machine, this will generate the expected output and print all the RDD’s elements. However, in cl原创 2020-09-18 11:12:35 · 732 阅读 · 0 评论 -
spark-core-转载
第1章 RDD 概念1.1 RDD 为什么会产生 RDD:Resilient Distributed Dataset 弹性分布式数据集 RDD 是 Spark 的基石,是实现 Spark 数据处理的核心抽象。那么 RDD 为什么会产生呢? Hadoop 的 MapReduce 是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备。数据更多面临的是一次性处理。 MR 的这种方式对数据领域两种常见的操作不是很高效。第一种是迭转载 2020-09-18 15:21:34 · 205 阅读 · 0 评论 -
spark-yarn 任务提交详解
Spark支持3种集群管理器(Cluster Manager)分别为:Standalone:独立模式,Spark 原生的简单集群管理器,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统,使用 Standalone 可以很方便地搭建一个集群; Hadoop YARN:统一的资源管理机制,在上面可以运行多套计算框架,如 MR、Storm等。根据 Driver 在集群中的位置不同,分为 yarn client 和 yarn cluster; Apache Mesos:一个强大的分布转载 2020-09-14 15:14:58 · 663 阅读 · 0 评论 -
spark中map与flatMap的区别
作为spark初学者对,一直对map与flatMap两个函数比较难以理解,这几天看了和写了不少例子,终于把它们搞清楚了两者的区别主要在于action后得到的值例子:import org.apache.spark.{SparkConf, SparkContext}object MapAndFlatMap { def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().se.原创 2020-09-11 10:37:12 · 1682 阅读 · 0 评论 -
spark上下文获取问题讨论-pyspark-转载
Is it possible to get the current spark context settings in PySpark?23update configuration inSpark 2.3.1To change the default spark configurations you can follow these steps:Import the required classesfrom pyspark.conf import SparkConffrom ..转载 2020-08-12 14:38:11 · 226 阅读 · 0 评论 -
Spark入门实战系列-转载
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者,在实战中多截图,还请谅解。为了大家实验方便,在这里把实验相关的测试数据和安装包放在百度盘提供下载地址为htt.转载 2020-08-05 12:43:19 · 237 阅读 · 0 评论 -
spark cluster和spark client的区别---转载
Spark支持Yarn,Mesos,Standalone三种集群部署模式,它们的共同点:Master服务(Yarn ResourceManager,Mesos master,Spark standalone)来决定哪些应用可以运行以及在哪什么时候运行,Slave服务(Yarn NodeManger)运行在每个节点上,节点上实际运行着Executor进程,此外还监控着它们的运行状态以及资源的消耗Spark On Yarn模式,又分cluster和client模式。cluster和client的最大区别在于转载 2020-08-05 10:48:58 · 3006 阅读 · 0 评论