大数据学习23：Spark:大数据的计算引擎(Scala开发环境安装)

最新推荐文章于 2023-06-06 08:58:01 发布

weixin_44804248

最新推荐文章于 2023-06-06 08:58:01 发布

阅读量229

点赞数

本文链接：https://blog.csdn.net/weixin_44804248/article/details/90020582

版权

本文介绍了Spark作为大数据计算引擎的核心概念，包括RDD、Spark SQL和Spark Streaming。同时，详细阐述了Scala编程语言的基础知识，如安装配置、数据类型、函数、循环、异常处理等，为学习Spark提供了必要的Scala入门指导。

摘要由CSDN通过智能技术生成

第一部分：Scala编程语言
第二部分：Spark Core内核（最重要的内容）—> 概念RDD：相当于MapReduce
第三部分：Spark SQL：相当于Hive，也支持SQL语句 -----> 底层依赖Spark Core ----> 依赖RDD
第四部分：Spark Streaming：相当于Storm用于流式计算 - ----> 底层依赖Spark Core ----> 依赖RDD
注意：但是Spark Streaming不能做到实时性很高

第一章：Scala基础

一、Scala简介：多范式的编程语言

1、多范式：支持面向对象、支持函数式编程
2、底层依赖JVM

二、安装配置Scala、常用的开发工具

1、安装配置
	版本：2.11.8版本跟Spark的版本一致（spark-2.1.0-bin-hadoop2.7.tgz）
	      scala-2.11.8.zip（Windows）
	      scala-2.11.8.tgz（Linux）
		  
	以windows为例：类似JDK的安装
		（1）解压: C:\Java\scala-2.11.8
		（2）设置SCALA_HOME: C:\Java\scala-2.11.8
		（3）把%SCALA_HOME%/bin加入PATH路径
		（4）执行: scala -version
		
2、常用开发工具
	（1）REPL：命令行
			   退出： :quit
	
	（2）IDEA: