![](https://img-blog.csdnimg.cn/20191021140758537.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
文章平均质量分 80
張萠飛
这个作者很懒,什么都没留下…
展开
-
记一次Spark 提交任务执行缓慢之问题解决了
hive 分区字段没有用引号括起来,导致hive或spark sql类型的任务执行时间很长原创 2022-09-02 15:27:57 · 1485 阅读 · 1 评论 -
Spark SQL, DataFrames and Datasets Guide
OverviewSpark SQL是一个用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几种与Spark SQL交互的方法,包括SQL和Dataset API。当计算结果时,使用相同的执行引擎,而不依赖于使用哪种API...翻译 2020-04-28 21:00:25 · 337 阅读 · 0 评论 -
hadoopRDD newAPIHadoopRDD如何使用
Table of ContentshadoopRDDnewAPIHadoopRDD调用样例hadoopRDD从 Hadoop JobConf 获取一个 Hadoop 可读数据集的 RDD,给出它的 InputFormat 和其他必要的信息(例如,基于文件系统的数据集的文件名,HyperTable 的表名),使用旧的 MapReduce API (' org.apache.had...原创 2020-03-12 14:38:16 · 3579 阅读 · 0 评论 -
Spark Streaming Custom Receivers
Spark 流可以从任何数据源接收流数据,除了它内置支持的数据源之外(也就是说,除了Flume、Kafka、Kinesis、文件、socket等)。这要求开发人员实现一个为接收来自相关数据源的数据而定制的接收器。本指南介绍了实现自定义接收器并在 Spark 流应用程序中使用它的过程。注意,自定义接收器可以用 Scala 或 Java 实现。实现自定义接收器...翻译 2020-04-25 17:07:27 · 200 阅读 · 0 评论 -
Spark Streaming Programming Guide
简述Spark Streaming 是核心 Spark API 的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如Kafka、Flume、Kinesis 或 TCP sockets,可以使用复杂的算法处理数据,这些算法用高级函数表示,如 map、reduce、join和window。最后,处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上,您可以将 Spar...翻译 2020-03-08 10:31:37 · 300 阅读 · 0 评论 -
Spark Streaming + Kafka 构造指南(Kafka broker version 0.10.0 or higher)
Table of Contents依赖创建一个直接流偏移量策略消费者的策略Creating an RDD获得offsets存储offsetsCheckpointsKafka itselfYour own data storeSSL / TLS部署Kafka 0.10 的 Spark 流集成在设计上类似于0.8直接流方法。它提供了简单的并行性,Ka...翻译 2020-03-05 16:09:07 · 692 阅读 · 0 评论 -
Spark面试,Spark面试题,Spark面试汇总
1、你觉得spark 可以完全替代hadoop 么?Spark 会替代 MR,Spark 存储依赖 HDFS,资源调度依赖 YARN,集群管理依赖 Zookeeper。2、Spark消费 Kafka,分布式的情况下,如何保证消息的顺序?Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。 同一个 Partition 用一个 write ahead...转载 2020-01-09 16:53:31 · 12144 阅读 · 10 评论 -
Spark Security
Spark目前支持通过共享密钥进行身份验证。可以通过spark将身份验证配置为on。验证配置参数。此参数控制Spark通信协议是否使用共享密钥进行身份验证。此身份验证是一个基本的握手,以确保双方拥有相同的共享机密并允许通信。如果共享的秘密不相同,则不允许它们通信。共享秘密创建如下:对于 spark on yarn 的部署。spark.authenticate 为 true将自动处理共享密钥的...翻译 2020-01-06 14:51:27 · 1440 阅读 · 0 评论 -
Run Spark Standalone Mode
除了在 Mesos 或 YARN 集群管理器上运行外,Spark 还提供了一个简单的独立部署模式。您可以手动启动一个独立的集群,通过手动启动主集群和工作集群,或者使用我们提供的启动脚本。也可以在一台机器上运行这些守护进程进行测试。在集群中安装独立的Spark要安装 Spark 独立模式,只需在集群的每个节点上放置一个已编译版本的 Spark。您可以在每个版本中获得 Spark 的预构建版本...翻译 2020-01-04 15:56:21 · 193 阅读 · 0 评论 -
Spark Job Scheduling
Table of Contents跨程序调度动态资源分配配置和设置资源分配策略安全移除executor程序内调度公平调度池调度池的默认行为调度池配置Spark 有几个用于在计算之间调度资源的工具。首先,回想一下,正如集群模式概述中所述,每个 Spark 应用程序(SparkContext的实例)运行一组独立的执行器进程。Spark 所运行的集群管理器为跨应用...翻译 2019-12-16 22:01:29 · 196 阅读 · 0 评论 -
Building Spark(重新构建编译Spark)
Apache Maven基于 Maven 的构建是 Apache Spark 的参考构建。使用 Maven 构建 Spark 需要 Maven 3.3.9或更新版本和 Java 7+。注意,从Spark 2.0.0开始,对Java 7的支持就被废弃了,可能在Spark 2.2.0中被删除。Setting up Maven’s Memory Usage你需要通过设置 MAVEN_...翻译 2020-01-08 08:56:14 · 1127 阅读 · 0 评论 -
Tuning Spark 调优
Table of Contents数据序列化调优内存调优确定内存消耗数据结构调优RDD序列化存储垃圾收集调优度量GC的影响先进的GC调优其他调优并行的级别Reduce任务的内存使用情况大的广播变量数据本地化总结由于大多数 Spark 计算都在内存中,所以集群中的任何资源(CPU、网络带宽或内存)都可能成为 Spark 程序的瓶颈。大多数情...翻译 2019-12-16 21:53:54 · 157 阅读 · 0 评论 -
Running Spark on YARN
Table of ContentsLaunching Spark on YARN添加 jar准备配置DebugSpark Properties注意事项在一个安全的集群中运行配置外部shuffle服务使用ooize 运行程序kerberos故障排除Launching Spark on YARN确保 HADOOP_CONF_DIR 或 YARN_CO...翻译 2019-12-05 21:50:05 · 398 阅读 · 0 评论 -
Spark Configuration Guide
Table of ContentsSpark Properties动态加载配置查看 spark 配置可用的属性Application PropertiesRuntime EnvironmentShuffle BehaviorSpark UICompression and SerializationMemory ManagementExecution Be...翻译 2019-12-08 23:00:29 · 483 阅读 · 0 评论 -
Spark Submitting Applications Guide
Spark bin 目录中的 Spark -submit 脚本用于在集群上启动应用程序。构建程序依赖如果代码依赖于其他项目,则需要将它们与应用程序一起打包,以便将代码分发到 Spark 集群。对于 Python,可以使用spark-submit的 --py-files 参数来添加要随应用程序分发的.py、.zip或.egg文件。如果依赖于多个 Python 文件,则将它们打包成.zip...翻译 2019-12-03 21:47:17 · 108 阅读 · 0 评论 -
Spark Programming Guide
Table of Contents概述构建spark程序初始化 SparkSpark-shellRDD并行集合外部数据集RDD算子基础将函数作为参数传递闭包ShuffleRDD 持久化如何选择存储级别共享变量BroadcastAccumulators部署到集群java和scala的启动方式概述每个 Spark 程...翻译 2019-12-03 21:47:36 · 167 阅读 · 0 评论 -
Spark Shell 终端操作指南
基础使用vim /opt/spark-2.1.1-bin-hadoop2.7/conf/spark-env.sh向文件中添加这么一行,标识本地集群SPARK_LOCAL_IP=192.168.78.135使用以下命令启动 spark shell 终端[root@single bin]# cd /opt/spark-2.1.1-bin-hadoop2.7/bin[root@s...翻译 2019-12-02 21:28:48 · 996 阅读 · 0 评论 -
Structured Streaming + Kafka 构建指南
版本依赖<scala.version>2.11.12</scala.version><spark.version>2.1.1</spark.version><!-- Spark - Kafka 依赖 --><dependency> <groupId>org.apache.spark</gr...翻译 2019-11-19 22:17:41 · 411 阅读 · 0 评论 -
Spark Structured Streaming 流查询
目录启用流查询Output ModesOutput SinksForeach 和ForeachBatch触发器管理流查询监控流查询读取指标交互使用异步api以编程方式查询指标使用Dropwizard启用流查询一旦定义了最终结果 DataFrame/Dataset,剩下的就是开始流计算了。为此,必须使用通过 Dataset.writeStream(...翻译 2019-11-16 17:58:23 · 1054 阅读 · 0 评论 -
快速开始一个 spark 程序
基础环境:jdkhttps://download.oracle.com/otn/java/jdk/8u231-b11/5b13a193868b4bf28bcb45c792fce896/jdk-8u231-linux-x64.tar.gz下载 linux 环境下spark tar包http://archive.apache.org/dist/spark/spark-2.1.1/spar...原创 2019-11-16 10:21:49 · 147 阅读 · 0 评论 -
Spark 中的 Kryo 磁盘序列化
在 Apache Spark 中,对于大数据应用程序,建议使用 Kryo 序列化而不是 java 序列化。与 java 序列化相比,当您移动和缓存大量数据时,与 java 序列化相比,Kryo 占用的内存更少。虽然 kryo 支持 RDD 缓存 和 shuffle,但它本身并不支持序列化到磁盘。RDD 上的 saveAsObjectFile 方法和 SparkContext 上的 object...原创 2019-11-01 21:57:39 · 746 阅读 · 0 评论 -
Spark RDD 算子
目录BasicsPassing Functions to Spark闭包ExampleLocal vs. cluster modesPrinting elements of an RDD-打印RDD中的每个元素Working with Key-Value PairsTransformationsActionsRDD支持两种类型的操作:transforma...翻译 2019-11-16 15:45:53 · 850 阅读 · 0 评论 -
Spark提交任务的流程以及各个节点组件的作用
Spark作业提交流程 spark-submit提交代码,Driver 执行new SparkContext(),在 SparkContext 里构造DAGScheduler和TaskScheduler。 TaskScheduler 会通过后台的一个进程,连接 Master,向 Master 注册 Application。 Master 接收到 Applicat...原创 2019-10-12 10:46:10 · 565 阅读 · 0 评论