Spark
hellozhouq
会点Java,正在大数据领域莫怕滚打。输出从社区学习的知识,回馈社区,希望对你有所帮助。
展开
-
SparkSQL 实现UV & PV计算
背景前两天面试中遇到一个比较基础的计算UV & PV 的问题。思路比较简单,最重要的是 手写代码 ,平常我们都是在IDE 中编写代码,手写代码的时候大多是情况下都是使用IDE 的提示,遇到手写的时候,就算这种简单的代码也不一定写得出来。那天采取的一个思路是:先把思路写出来,然后,时间够再添代码进去。有时候确实一些函数拼不出来什么的,但是思路在,好过白卷。由上面的背景引出 使用Spar...原创 2019-03-16 23:46:17 · 3279 阅读 · 1 评论 -
使用spark-submit 提交第一个 spark 应用到集群中 & 使用 spark-shell 接口 运行spark 程序
1 提交第一个spark 应用到集群中运行语法:./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value&a原创 2019-03-13 16:54:43 · 1043 阅读 · 0 评论 -
Spark RDD
1.RDD 概述1.1 什么是 RDD ?RDD(Resilient Distributed Dataset) 叫着 弹性分布式数据集 ,是Spark 中最基本的抽象,它代表一个不可变、可分区、里面元素可以并行计算的集合。RDD 具有数据流模型特点:自动容错、位置感知性调度和可伸缩。RDD 允许用户在执行多个查询时,显示地将工作集缓存在内存中,后续的查询能够重用工作集,这将会极大的提升查询...原创 2019-03-13 17:44:02 · 315 阅读 · 0 评论