Spark
rong_code
这个作者很懒,什么都没留下…
展开
-
spark-shell启动spark报错
spark-shell启动spark报错前言 离线安装好CDH、Coudera Manager之后,通过Coudera Manager安装所有自带的应用,包括hdfs、hive、yarn、spark、hbase等应用,过程很是波折,此处就不抱怨了,直接进入主题。描述 在安装有spark的节点上,通过spark-shell启动spark,满怀期待的启动spark,but,来了个晴...原创 2019-11-05 14:34:35 · 1789 阅读 · 0 评论 -
spark sql 综合实例
该文主要展示的是spark sql 例子(内容是找了份oracle的例子,翻译成spark sql的)1、需要准备好四张表,既四个文本文件逗号分隔2、为这四张表创建好schema,并注册成表3、时间处理有小部分改动准备的四张表image.pngimage.pngimage.pngimage.png四张表中的数据...原创 2019-03-09 14:00:19 · 480 阅读 · 1 评论 -
Spark SQL 教程
一、什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。image.png二、为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapReduc...原创 2019-03-09 14:01:51 · 197 阅读 · 0 评论 -
SparkStreaming 窗口操作
热点搜索词滑动统计,每隔10秒钟,统计最近60秒钟的搜索词的搜索频次,并打印出排名最靠前的3个搜索词以及出现次数普通SparkStreaming处理方式,如果将时间间隔设置成60s,无法每隔10s输出一次结果;如果将时间间隔设置成60s,同时使用updatebyKeyState,那么统计的是持续的累加结果,无法做到统计60s之内的结果,此时就需要使用滑动窗口来实现。Streaming提...原创 2019-03-09 14:02:21 · 547 阅读 · 1 评论 -
SparkStreaming-----SparkStreaming教程
概要Spark流是对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理。数据可以由多个源取得,例如:Kafka,Flume,Twitter,ZeroMQ,Kinesis或者TCP接口,同时可以使用由如map,reduce,join和window这样的高层接口描述的复杂算法进行处理。最终,处理过的数据可以被推送到文件系统,数据库和HDFS。imag...原创 2019-03-08 17:37:25 · 282 阅读 · 0 评论 -
Spark中广播变量和累加器
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。累机器相当于统筹大变量,常用于计数,统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去?不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。2、 广播变量只能在...原创 2019-03-08 17:36:11 · 114 阅读 · 0 评论 -
Spark-RDD持久化
(1) persist算子使用方法:var rdd = sc.textFile("test")rdd = rdd.persist(StorageLevel.MEMORY_ONLY)val count = rdd.count() //或者其他操作StorageLevel说明:StorageLevel的构造函数:class StorageLevel private( ...原创 2019-03-08 17:32:59 · 253 阅读 · 0 评论 -
Spark运行原理
本文主要分以下章节:一、Spark专业术语定义二、 Spark的任务提交机制一、Spark专业术语定义1、Application:Spark应用程序指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。Spark应用程序,由一个或多个作业JOB组成,如下图所示:image2、Driver:驱动程序S...原创 2019-03-08 17:31:45 · 256 阅读 · 0 评论 -
二种方法实现Spark计算WordCount
1.spark-shellval lines = sc.textFile("hdfs://spark1:9000/spark.txt")val words = lines.flatMap(line => line.split(" "))val pairs = words.map(word => (word, 1))val wordCounts = pairs.reduceB...原创 2019-02-27 19:53:00 · 271 阅读 · 0 评论 -
spark history server配置使用
问题描述在Spark安装成功后,无论是通过spark-submit工具还是通过Intellij IDEA提交任务,只要在Spark应用程序运行期间,都可以通过WebUI控制台页面来查看具体的运行细节,在浏览器中通过地址:http://<driver-node>:4040即可查看当前的运行状态。但是一旦应用程序运行结束,该Web界面也就失效了,无法继续查看监控集群信息。无法回顾刚刚运...原创 2019-02-27 19:45:53 · 172 阅读 · 0 评论 -
Spark完全分布式集群搭建
环境准备 服务器集群 我用的CentOS-6.6版本的4个虚拟机,主机名为hadoop01、hadoop02、hadoop03、hadoop04,另外我会使用hadoop用户搭建集群(生产环境中root用户不是可以任意使用的) spark安装包 下载地址:https://mirrors.aliyun.com/apache/spark/ 我用的spark-2.2.0-bin-h...原创 2019-02-27 19:44:06 · 482 阅读 · 0 评论 -
spark单机版intelij开发(含maven)
https://www.jianshu.com/p/200473f264bchttps://blog.csdn.net/a2011480169/article/details/52712421参考博客:1、http://wwwlouxuemingcom.blog.163.com/blog/static/20974782201321953144457/2、http://blog.csdn.n...原创 2019-02-27 19:41:05 · 151 阅读 · 0 评论 -
26 -大数据 centos spark单机版伪分布式模式(1)
Spark的部署方式包括Standalone、YARN、Mesos,在我们学习Spark编程的过程中,往往机器资源有限,于是可以采用伪分布式部署。1.2 Spark 部署依赖Spark Standalone的运行依赖于JDK、Scala,本来是不依赖于Hadoop的,但Spark自带的许多演示程序都依赖于Hadoop HDFS,因此我们也部署了伪分布式的Hadoop。本次部署是在cen...原创 2019-02-27 19:37:06 · 299 阅读 · 0 评论