spark
Lan_xuaner
砥砺前行
展开
-
SparkSQL简介及使用
SparkSQL简介及使用1 简介1.1 什么是 Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。1.2 Spark SQL 的特点1.内存列存储–可以大大优化内存的使用率,减少内存消耗,避免GC对大量数据性能的开销2.字节码生成技术–可以使用动态的字节码技术优化性能3.Scala代码的优化4.易整合5.统一的数据访问方式6.兼容hive7.提供了统一的数据连原创 2020-05-26 19:10:13 · 4058 阅读 · 0 评论 -
Spark基本操作WordCountDemo编写 打包 提交 运行
Spark操作之Demo编写及提交任务1 运行spark自带测试程序包计算pi值yarn模式提交任务(CDH采用此方式)bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \/opt/cloudera/parcels/CDH/lib/spark/examples/jars/spark-examples_2.11-2.2.0-cdh6.0.1.jar \原创 2020-05-25 16:07:26 · 293 阅读 · 0 评论 -
Spark基本概念的高频面试题
Spark基本概念的高频面试题1 spark的两大基本算子是什么,有什么区别?1、transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作并不是马上执行,需要等到有action操作的时候才会真正触发运算。2、action行动算子:这类算子会触发sparkco...原创 2020-04-25 11:27:02 · 613 阅读 · 0 评论 -
Redis(三)Redis与Spark的集成
Redis与Spark的集成(读写)RDD——read redis from sparkspark-shell --jars spark-redis-0.3.2.jar,jedis-2.7.2.jar,commons-pool2-2.0.jar//stop existing SparkContextsc.stopimport org.apache.spark.SparkConfimpo...原创 2020-04-23 21:21:44 · 876 阅读 · 1 评论 -
SparkStreaming之WordCount案例(累计统计)(二)
SparkStreaming之WordCount案例(累计统计)(二)一、案例简介使用 netcat 工具向 9999 端口不断的发送数据,通过 SparkStreaming 读取端口数据并累计统计不同单词出现的次数 。二、netcat操作1、虚拟机中安装netcat[root@hadoop1 spark]# yum install -y nc2、启动程序并发送数据[root@had...原创 2020-03-24 15:45:54 · 422 阅读 · 0 评论 -
SparkStreaming之WordCount案例(一)
一、案例简介使用 netcat 工具向 9999 端口不断的发送数据,通过 SparkStreaming 读取端口数据并统 计不同单词出现的次数 。二、netcat操作1、虚拟机中安装netcat[root@hadoop1 spark]# yum install -y nc2、启动程序并发送数据[root@hadoop1 spark]# nc -lk 9999三、代码实现1、mav...原创 2020-02-19 18:03:35 · 284 阅读 · 0 评论 -
SparkSql实现小案例——数据部分(二)
tbDate2003-1-1,200301,2003,1,1,3,1,1,1,12003-1-2,200301,2003,1,2,4,1,1,1,12003-1-3,200301,2003,1,3,5,1,1,1,12003-1-4,200301,2003,1,4,6,1,1,1,12003-1-5,200301,2003,1,5,7,1,1,1,12003-1-6,200301,20...原创 2020-02-19 17:39:52 · 135 阅读 · 0 评论 -
SparkSql实现小案例——代码部分(一)
一、案例介绍原创 2020-02-19 17:37:17 · 733 阅读 · 0 评论 -
Scala实现WordCount简易案例
Scala实现WordCount简易案例下面的代码是在IDEA中进行单词计数的小案例object WordCount { def main(args: Array[String]): Unit = { //定义一个List val list = List("java scala java","scala python scala") //处理原始数据,获取每个word ...原创 2020-02-07 17:28:26 · 458 阅读 · 0 评论