大数据技术与应用实验报告7

这篇博客介绍了如何安装配置Spark和Scala,包括环境变量设置和Hadoop的配合。作者详细展示了如何使用Spark Shell读取HDFS文件、本地文件,以及通过Scala和Java实现WordCount。此外,还解释了RDD的概念和Spark编程模型中的三种语言支持。
摘要由CSDN通过智能技术生成

大数据技术与应用实验报告7

Saprk基于Hadoop的安装与配置,进行使用

内容:Spark shell实现HDFS文件的读入,本地文件的读入,以及WordCount通过spark shell、scala、java的实现

Spark的编程模型:

三种语言:Scala Java  Python

1.安装Scala
下载地址:http://www.scala-lang.org/download/(我选择的是scala-2.12.1.tgz)
下载完成后解压到目录下,然后配置环境变量:
export SCALA_HOME=/home/gyy/scala-2.12.1
export PATH=${SCALA_HOME}/bin:$PATH

2.安装Spark

下载地址:http://spark.apache.org/downloads.html

选择Spark-2.4.0

将 spark-2.4.0/yarn 目录下的 spark-2.4.0-yarn-shuffle.jar 拷贝到/env/hadoop-2.9.2/share/hadoop/yarn/lib 目录下

配置spark 环境变量:

cd /env/spark-2.4.0/conf
cp spark-env.sh.template spark-env.sh
vim spark-env.sh

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值