Spark
spark相关知识
「miraitowa」
这个作者很懒,什么都没留下…
展开
-
Spark Sql知识点总结
一、Spark SQL概述1.1 Spark SQL是什么?Spark SQL是Spark用来处理结构化数据的一个模块,它提供了 2 个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。之前学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。之后有Spark SQL,它是使用Hive解析sql生成AST语法树,将其后的逻辑计划生成、优化、物理计原创 2020-09-08 09:26:06 · 449 阅读 · 0 评论 -
Spark Streaming知识点总结
一、Spark Streaming概述1.1 Spark Streaming是什么?Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的 TCP套接字等等。数据输入后可以用 Spark 的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。和Spark基于RDD的概念很相似,Spark Streaming使用离散化流(原创 2020-09-07 17:29:26 · 482 阅读 · 0 评论 -
Spark Core知识点总结
一、RDD概述RDD (Resilient Distributed Dataset):弹性分布式数据集,是Spark中最基本的数据抽象1.1 RDD的属性一组分区(partition),即数据集的基本组成单位;一个计算每个分区的函数;RDD之间的依赖关系;一个Partitioner,即RDD的分片函数;一个列表,存储存取每个Partition的优先位置(preferred location)1.2 RDD的特点分区RDD和MapReduce都要支持分区是因为它们处理的是非常大的数据集原创 2020-09-07 16:09:47 · 328 阅读 · 0 评论 -
spark(入门)知识点总结
1. Spark的概述Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools in原创 2020-09-07 16:03:40 · 209 阅读 · 0 评论 -
Spark连接Hive三种方式
1. 用Spark-Sql/Spark-Shell执行操作Hive1.1 相关配置hive中配置hive-site.xml(增加相关信息)<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://192.168.56.1:3306/hive-demo?useSSL=false&原创 2020-08-27 11:05:39 · 5909 阅读 · 0 评论 -
SparkStreaming + Kafka集成,创建DStream以kafka作为数据源
SparkStreaming和Kafka的整合分为两种方式第一种是基于Receiver的方式Receiver的结构:为了保证并行获取数据,对应每一个外部数据源的分区,所以Receiver也要是分布式的,主要分为三个部分Receiver是一个对象,是可以有用户自定义的获取逻辑对象,表示了如何获取数据Receiver Tracker是Receiver的协调和调度者,其运行在Driver上Receiver Supervisor被Receiver Tracker调度到不同的分布式上运行,其会拿到用户自原创 2020-08-25 11:39:16 · 404 阅读 · 0 评论 -
SparkCore中自定义累加器
累加器用来对信息进行聚合,通常在向 Spark 传递函数时,比如使用 map() 函数或者用 filter() 传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果。通过在驱动器中调用 SparkContext.accumulator(initialValue)方法,创建出存有初始值的累加器。返回值为 org.apache.spark.原创 2020-08-25 10:31:22 · 180 阅读 · 0 评论 -
创建DStream时自定义数据源
自定义数据源需要继承Receiver,并实现onStart、onStop方法package com.spark.receiverimport java.io.{BufferedReader, InputStreamReader}import java.net.Socketimport java.nio.charset.StandardCharsetsimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConf原创 2020-08-24 20:29:48 · 238 阅读 · 0 评论 -
Spark的数据读取,SparkCore连接MySQL及HBase的数据读取
Spark的数据读取即数据保存可以从两个维度来做区分:文件格式以及文件系统。文件格式分为:Text文件,Json文件,Csv文件,Sequence文件以及Object文件;文件系统分为:本地文件系统,HDFS,HBase以及数据库。1. 文件类数据读取与保存1.1 Text文件数据读取:textFile(String)var hdfsFile = sc.textFile("hdfs://hadoop01:8020/fruit.txt")数据保存:saveAsTextFile(Strin原创 2020-08-21 17:19:34 · 322 阅读 · 1 评论