spark
郑才华
这个作者很懒,什么都没留下…
展开
-
spark-shell 基本用法
spark-shell 是 scala 语言的 REPL(Read-Eval-Print-Loop,通俗地理解就是命令行模式) 环境,同时针对 spark 做了一些拓展。1. 启动 spark-shell 的方法1.1 本机$ spark-shell --master local[N]$ spark-shell --master local[*]通过设定local[N]参数来启动本地 Spark...转载 2018-03-30 15:47:58 · 925 阅读 · 0 评论 -
Spark 部署方法
转载:https://blog.csdn.net/weixin_36394852/article/details/76030317Spark安装之前的准备文件的解压与改名tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz1rm -rf spark-2.2.0-bin-hadoop2.7.tgz1为了我后面方便配置spark,在这里我把文件夹的名字给改了mv spark-...转载 2018-03-26 12:47:34 · 569 阅读 · 0 评论 -
Spark基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流...转载 2018-03-27 13:09:06 · 350 阅读 · 0 评论 -
深入理解RDD
RDD 即 Resilient Distributes Dataset, 是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD,提供了一系列操作,比如 map、flatMap、filter等。input source种类繁多,比如hdfs上存储的文件、本地存储的文件,相应的 RDD的种类也有很多。不同的input source 对应着不...转载 2018-03-27 13:13:42 · 268 阅读 · 0 评论