![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 50
万家林
热爱大数据和AI的一名在职大数据开发工程师
展开
-
SparkStreaming整合Kafka实现wordcount案例(spark-streaming-kafka-0-10_2.11版)
依赖导入:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-10_2.11</artifactId> <version>2.4.5</version></dependency>代码实现:def main(args: Array[String]): U原创 2022-01-13 15:37:34 · 1018 阅读 · 0 评论 -
SparkStreaming自定义数据源实现wordcount案例
项目需求:需求:自定义数据源,实现监控某个端口号,获取该端口号内容。需要继承Receiver,并实现onStart、onStop方法来自定义数据源采集。代码实现: def main(args: Array[String]): Unit = { //创建配置对象文件 val conf: SparkConf = new SparkConf().setAppName("SparkStreaming_Demo01").setMaster("local[*]") //创建SparkS原创 2022-01-04 19:01:26 · 117 阅读 · 0 评论 -
SparkStreaming实现wordcount案例
项目需求:需求:使用netcat工具向9999端口不断的发送数据,通过SparkStreaming读取端口数据并统计不同单词出现的次数。代码实现:def main(args: Array[String]): Unit = { //创建配置对象文件 val conf: SparkConf = new SparkConf().setAppName("SparkStreaming_Demo01").setMaster("local[*]") //创建SparkStreaming程序原创 2022-01-04 16:15:43 · 403 阅读 · 0 评论 -
SparkSQL之json复杂处理案例
准备工作:1、准备一个json的log文件(如果没有的话,可以到我的资源里去下载,0积分就可以下载)2、spark环境的安装和配置(如果还没有安装的话,跳转到保姆级教程)分析数据:json数组分为cm、ap、et,cm里又分为ln,sv…等等等。这样光看可读性比较差,大家可以使用菜鸟教程的在线解析json工具去看。很好用。操作步骤:本次案例操作是在spark黑窗口就行的1、首先先导入两个包,方便下面的代码使用import org.apache.spark.sql.types._i原创 2021-12-15 19:10:03 · 2519 阅读 · 0 评论 -
SparkCore RDD算子(看这一篇就够了~)
简述:Spark的算子分为转换算子(Transformation)和行动算子(Action)。转换算子将RDD转换成新的RDD,或者将文件系统的数据转换成一个RDD,行动算子会形成一个job。转换算子(很重要!):转换算子分为:Value类型,双Value类型和Key-Value类型。Value类型1、map函数签名:def map[U: ClassTag](f:T => U): RDD[U]功能说明:参数f是一个函数,它可以接收一个参数。当某个RDD执行map方法时,会遍历该RDD中原创 2021-12-13 19:43:25 · 1197 阅读 · 0 评论 -
SparkSql 自定义函数(看这一篇就够了~)
简述:开发过程中,有时候函数满足不了我们的需求,我们需要自己去定义函数使用。在spark中,有三种自定义函数,分别为UDF,UDAF,UDTF。UDF:一对一UDAF:多对一UDTF:一对多UDF函数实例:hobbies.txt文件内容alice jogging,Coding,cookinglina travel,dance需求:求出每个人hobbies的数量操作代码: val conf: SparkConf = new SparkConf().setAppName("innserd原创 2021-12-13 15:21:14 · 5426 阅读 · 0 评论 -
Spark之RDD(看这一篇就够了~)
什么是RDD?:RDD:弹性分布式数据集,是Spark中最基本的数据抽象。特点:弹性、分布式、数据集、数据抽象、不可变。特性:1、A list of partitions(一组分区)分区可以看成是数据集的基本组成单位,对于 RDD 来说, 每个分区都会被一个计算任务处理, 并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数, 如果没有指定, 那么就会采用默认值。 默认值就是程序所分配到的 CPU Core 的数目。2、A function for computing eac原创 2021-12-10 17:20:37 · 1073 阅读 · 0 评论 -
IDEA中Spark整合MySQL案例
操作步骤:1、新建一个maven工程2、新建一个Scala类3、导入依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</version> <原创 2021-12-10 16:45:10 · 495 阅读 · 0 评论 -
IDEA中Spark整合hive案例
准备工作:需要IDEA配置好Scala操作步骤:1、新建一个maven工程2、新建一个Scala类3、导入依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</version原创 2021-12-10 16:30:40 · 904 阅读 · 0 评论 -
Spark整合hive(保姆级教程)
准备工作:1、需要安装配置好hive,如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark,如果不会安装可以跳转到Spark安装与配置(单机版)3、需要安装配置好Hadoop,如果不会安装可以跳转到Linux安装配置Hadoop2.6操作步骤:1、将hive的conf目录下的hive-site.xml拷贝到spark的conf目录下(也可以建立软连接)cp /opt/soft/hive110/conf/hive-site.xml /opt/soft/spark24原创 2021-12-10 16:19:23 · 2240 阅读 · 0 评论 -
Spark安装与配置(单机版)(保姆级教程)
Spark简述:Spark:快速通用的大规模数据处理引擎,特点是速度快,易使用。Spark安装前准备工作:1、安装配置好jdk,如果不会安装可以跳转到脚本安装jdk保姆级教程2、搭建配置好Hadoop,如果不会配置安装可以跳转到Hadoop配置保姆级教程3、安装好Scala,如果不会安装可以跳转到Linux下安装配置Scala保姆级教程Spark安装步骤:1、通过xftp将spark安装包上传到Linux中,版本是spark-2.4.5-bin-hadoop2.6.tgz2、解压缩tar -原创 2021-12-06 22:26:06 · 6624 阅读 · 2 评论