- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 初识Spark之 Spark API
API应用可以通过使用Spark提供的库获得Spark集群的计算能力,这些库都是Scala编写的,但是Spark提供了面向各种语言的API,例如Scala、Python、Java等,所以可以使用以上语言进行Spark应用开发。 Spark的API主要由两个抽象部件组成:SparkContext和RDD,应用程序通过这两个部件和Spark进行交互,连接到Spark-集群并使用相关资源。1.Spark
2017-07-12 22:50:35 6651 1
原创 Spark安装
spark是用scala写的,运行在JAVA虚拟机(JVM)上,所以需要安装JDK(java7+) 如果使用Python 需要2.6+或3.4+ 推荐的版本对应:spark 1.6.2-scala 2.10 spark 2.0.0-scala 2.11选择下载: (作者当前的ubtun版本为16.04 已经预装好2.7.12版本的python) jdk-8u131-linux-...
2017-07-10 21:19:55 683
原创 初识Spark之 基本概念
概述Spark是一个基于内存的用于处理、分析大数据的集群计算框架。Spark组件 以上为Spark软件栈图Spark项目包括多个紧密集成的组件,紧密集成的优点则体现在: - 如果Spark底层优化了,基于Spark底层的组件也将得到相应优化 - 节省了各个组件组合使用时的部署、测试等时间 - 向Spark增加新组件时,其它组件都可立刻享用Spark Core: 是
2017-07-10 15:18:12 591
原创 初识Spark之 大数据技术提要
spark是什么 Spark 是专为大规模数据处理而设计的快速通用的计算引擎 ---百度百科由此可知,spark是一项处理大规模数据是技术,所以在了解Spark之前,熟悉以下开源的大数据技术对Spark的使用会很有帮助。- 1、HadoopHadoop是最早流行的开源大数据技术之一,是一个可扩展、可容错的系统,用来
2017-07-09 17:14:56 718
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人