
Spark
文章平均质量分 86
Spark学习
NightFall丶
岂能尽如人意,但求无愧我心
展开
-
Linux Hadoop平台伪分布式安装(Hive on Spark)
Hadoop大数据平台伪分布式安装原创 2023-11-09 10:51:03 · 1270 阅读 · 0 评论 -
HDP服务器上spark-sql联通hive元数据库
执行的脚本没有执行,提示没有找到数据库;新打session窗口测试,通过spark-sql连接yarn后。问题描述:金山云大数据平台(基于HDP)服务器上跑批数据加工脚本时,发现当中通过。发现数据库与hive元数据库不一致;原创 2023-06-14 10:29:02 · 191 阅读 · 0 评论 -
IDEA Windows下Spark连接Hive
IDEA Windows下SPARK连接Hive原创 2022-11-21 16:01:13 · 2084 阅读 · 1 评论 -
Spark Streaming读写Kafka实例
目录Linking DenpencyCommon WritingLinking Denpencypoml依赖<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.targe原创 2021-04-17 10:10:34 · 411 阅读 · 0 评论 -
Spark Straming 集成Flume实例
目录前言一、Push方式a. spark streaming codeb. flume配置c. Test二、Poll方式前言 Spark Streaming 通过 Push 和 Pull 两种方式对接 Flume 数据源。以 Spark Streaming 的角度来看,Push 方式属于推送(由 Flume 向 Spark 推送)而 Pull 属于拉取(Spark 拉取 Flume 的输出)。 &原创 2021-04-06 23:27:05 · 332 阅读 · 0 评论 -
DStream API相关
目录Transformations on DStreamsUpdateStateByKeyTransformWindowJoina. Stream-stream joinsb. Stream-dataset joinsOutput OperationsOther pointsDataFrame and SQL OperationsTransformations on DStreams DStream支持普通Sp原创 2021-04-01 12:34:40 · 406 阅读 · 0 评论 -
Spark Streaming集成Kafka
目录前言一、Receiver接收方式(了解)二、Direct直连方式(掌握)2.1 实例演示2.1.1 MAVEN LINKING2.1.2 创建Scala Objecta. LocationStrategiesb. ConsumerStrategies前言 在Spark1.3版本后,KafkaUtils里面提供了两个创建dstream的方法,一种为KafkaUtils.createDstream,另一种为原创 2021-04-01 00:01:22 · 780 阅读 · 0 评论 -
Spark Streaming流式数据处理
这里写目录标题一、Spark Streaming 简介二、简单的例子Spark Streaming相关核心类一、Spark Streaming 简介Spark Streaming是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。数据可以从Kafka, Kinesis, or TCP sockets等许多来源摄入,并且可以使用与像高级别功能表达复杂的算法来处理map,reduce,join和window。最后,可以将处理后的数据推送到文件系统,数据库和实时仪表板。还可以在数原创 2021-03-31 22:46:27 · 2091 阅读 · 0 评论 -
Spark SQL操作外部数据源
目录集成&连接HiveSpark集成HiveIDEA连接HiveIDEA连接MySQL集成&连接HiveSpark集成Hive将hive/conf目录下的hive-site.xml复制到spark/conf目录下;[root@single ~]#cp /opt/software/hadoop/hive110/conf/hive-site.xml /opt/software/hadoop/spark244/conf将hive/lib目录下的mysql-connector-j原创 2021-01-09 09:51:48 · 1274 阅读 · 0 评论 -
Spark SQL入门基础及使用
目录SQL on HadoopSpark SQL 前身Spark SQL架构Spark SQL运行原理Spark SQL APIDataSetDataSet创建使用Case Class 创建DataSetRDD->DataSetDataFrame创建DataFrameRDD->DataFrameDataFrame->RDDSQL on Hadoop 基于Hadoop并集成了SQL语句的有以下这原创 2021-01-08 08:45:25 · 584 阅读 · 0 评论 -
Spark分布式计算原理
目录一、RDD依赖与DAG原理1.1 RDD的转换一、RDD依赖与DAG原理 Spark根据计算逻辑中的 RDD的转换与动作生成 RDD的依赖关系,同时这个计算链也形成了逻辑上的 DAG。1.1 RDD的转换e.g.(以wordcount为例)package sparkimport org.apache.spark.{SparkConf,SparkContext}object WordCount{原创 2021-01-06 16:53:15 · 217 阅读 · 0 评论 -
Spark基础及架构
Spark基础目录一、认识Spark1.1 Spark与 MapReduce比较1.2 Spark技术栈二、Spark架构与运行环境一、认识Spark Spark是用于大规模数据处理的统一分析引擎。SpeedApache Spark使用最新的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能;Ease of Use使用Java,Scala,Python,R和SQL快速编原创 2021-01-06 14:33:24 · 389 阅读 · 1 评论