![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
白桃K
这个作者很懒,什么都没留下…
展开
-
初识Spark之 大数据技术提要
spark是什么 Spark 是专为大规模数据处理而设计的快速通用的计算引擎 ---百度百科由此可知,spark是一项处理大规模数据是技术,所以在了解Spark之前,熟悉以下开源的大数据技术对Spark的使用会很有帮助。- 1、HadoopHadoop是最早流行的开源大数据技术之一,是一个可扩展、可容错的系统,用来原创 2017-07-09 17:14:56 · 706 阅读 · 0 评论 -
Spark安装
spark是用scala写的,运行在JAVA虚拟机(JVM)上,所以需要安装JDK(java7+) 如果使用Python 需要2.6+或3.4+ 推荐的版本对应:spark 1.6.2-scala 2.10 spark 2.0.0-scala 2.11选择下载: (作者当前的ubtun版本为16.04 已经预装好2.7.12版本的python) jdk-8u131-linux-...原创 2017-07-10 21:19:55 · 673 阅读 · 0 评论 -
初识Spark之 基本概念
概述Spark是一个基于内存的用于处理、分析大数据的集群计算框架。Spark组件 以上为Spark软件栈图Spark项目包括多个紧密集成的组件,紧密集成的优点则体现在: - 如果Spark底层优化了,基于Spark底层的组件也将得到相应优化 - 节省了各个组件组合使用时的部署、测试等时间 - 向Spark增加新组件时,其它组件都可立刻享用Spark Core: 是原创 2017-07-10 15:18:12 · 585 阅读 · 0 评论 -
初识Spark之 Spark API
API应用可以通过使用Spark提供的库获得Spark集群的计算能力,这些库都是Scala编写的,但是Spark提供了面向各种语言的API,例如Scala、Python、Java等,所以可以使用以上语言进行Spark应用开发。 Spark的API主要由两个抽象部件组成:SparkContext和RDD,应用程序通过这两个部件和Spark进行交互,连接到Spark-集群并使用相关资源。1.Spark原创 2017-07-12 22:50:35 · 6594 阅读 · 1 评论 -
Spark 集群配置(standalone)
此为纯干货 喊话橙子精:我放弃那篇论文总结了。。。寒假前在离开实验室的那天系统抽风了,来学校这两天基本花在重新装系统配环境上了铺垫一下在Spark中除了在单机上运行的local模式以外,共有三种分布式部署方法:local 运行在单机上,一般用于测试和开发standalone 需要构建由Master+Slave构成的Spark集群。因此为独立模式,自带完整的服务,可单独部...原创 2018-03-03 20:36:26 · 4509 阅读 · 0 评论 -
Spark Web UI 监控
日常铺垫本人最终用于大数据集测试的集群中包含4个节点,每个节点是一个worker,每个worker上启动一个Executor,其中Driver也跑在master上。每个Executor可使用的核数为2,可用的内存为2g,集群中所有Executor最大可用核数为8。 conf/spark-defaults.conf 部分参数配置如下: spark.master ...原创 2018-03-18 18:34:19 · 25699 阅读 · 0 评论