Windows下安装spark-hadoop步骤

前言

本章将介绍如何在Windows下实现spark环境搭建。

 

本章概要

1、版本说明

2、环境准备:

  • jdk配置;
  • spark安装与配置;
  • hadoop安装与配置;
  • IDEA的安装与配置

版本说明

  • jdk:1.8
  • spark:2.4.5
  • hadoop:2.7.1

我把的安装软件的放到云盘了,链接:https://pan.baidu.com/s/1SLdfe40SZx9FjRl_09_beQ 
提取码:tp7p 

环境准备

A、JDK1.8

1.下载jdk,官网地址:https://www.oracle.com/technetwork/java/javase/downloads/index.html
1.1、选择 jdk1.8 版本,其他版本差不多一样的步骤:

1.2、下载适用于自己的电脑的 jdk

2、安装
它会默认安装在 C 盘,也可以自己修改安装位置。
包含 jre
3、配置路径信息

  • 配置 JAVA_HOME,路径为你安装的 jdk 位置
  • 配置 JRE_HOME,路径为你安装的 jre 位置
  • 配置 CLASSPATH,路径为:%JAVA_HOME%\lib;%JAVA_HOME%\lib\tool.jar中间有一个分号。
  • 配置 Path,路径为:%JAVA_HOME%\bin、%JRE_HOME%\bin

4、结果
打开命令提示符 cmd,输入 java -version,即可查看安装版本是否安装成功。
 

B、spark

从官网下载http://spark.apache.org/downloads.html ,我下的文件是spark-2.4.5-bin-hadoop2.7,然后解压到文件夹,注意的是文件夹命名中不能有空格,例如我是D:\spark\spark-2.4.5-bin-hadoop2.7,然后配置环境变量并添加到Path变量中(%SCALA_HOME%\bin),和JDK1.8一样.

C、hadoop

1.安装前需要准备的文件
需要先去官网下载hadoop,我下载的版本是2.7.1,但下载完的hadoop是不能直接在Windows上运行的,需要替换bin和etc两个文件夹,替换成专门为Windows下运行而编译的对应版本的bin和etc文件夹
可以在csdn下载中下载:https://download.csdn.net/download/eagleuniversityeye/11074242
也可以去官网先下载hadoop,然后去GitHub下载hadooponwindows。hadoop官网,hadooponwindows GitHub下载地址是https://github.com/sardetushar/hadooponwindows

2.配置hadoop环境变量
java的环境变量配置我在这里就不多说了,说下hadoop环境变量配置
右键我的电脑->属性->左边任务栏 高级系统设置->环境变量
在系统变量里新建HADOOP_HOME,设置变量值为hadoop地址,再将HADOOP_HOME添加到PATH中(以下两步很重要,没有的话spark能启动,但Hadoop会一直报错:Unable to load native-hadoop library for your platform... using builtin-java classes where applicable)

3.修改hadoop配置
第一步:替换文件
将从官网下载的hadoop2.7.1中的bin和etc两个文件夹删除,使用hadooponwindows中的bin和etc代替
第二步:创建缺失的文件夹并将其配置到配置文件中
在hadoop根目录下创建两个文件夹data和tmp
在data文件夹下再创建连个子文件夹datanode和namenode

打开根目录下的etc/hadoop/hdfs-site.xml文件
修改dfs.namenode.name.dir和dfs.datanode.name.dir两个属性的值,改为刚刚创建的两个文件夹datanode和namenode的绝对路径(注意不能直接把在Windows下的路径复制粘贴,路径URL用的是斜杠不是反斜杠,而且前面还要加一个斜杠)然后保存退出


第三步:在hadoop-env.cmd中修改Java虚拟机位置
打开根目录下的etc/hadoop/hadoop-env.cmd文件
找到下图画出的配置,将set JAVA_HOME的值修改为你的Java虚拟机的绝对路径,如果路径中含有Program Files需要用PROGRA~1替换
第四步:复制hadoop.dll文件到指定目录
将根目录下的bin文件夹中的hadoop.dll文件复制到C:\Windows\System32文件夹下

 

以上步骤完成后,打开CMD,运行spark-shell

这样就成功了

D、IDEA的安装与配置

这就是最后一步了,

IntelliJ IDEA号称当前Java开发效率最高的IDE工具。
IntelliJ IDEA有两个版本:社区版(Community)和旗舰版(Ultimate)。
社区版 是免费的、开源的,但功能较少;
旗舰版 提供了较多的功能

1,下载安装:
IntelliJ IDEA 官网:https://www.jetbrains.com/idea/,也可以从我网盘下载

2、软件安装过程就不说了,点击Next,因为安装文件需要占用较多空间,尽量不要选择C盘:

3、配置SCALA,配置scala有两种方法:在线配置和离线配置

3.1在线配置很简单,在开始界面点击configure-plugins

然后搜索scala后直接安装

3.2 离线安装,在线安装很容易下载失败,我们这里推荐离线安装,

首先scala的版本要和Intellij版本对应。如如上图所示,搜索scala看到适合当前IDEA版本的scala插件是20190323,然后去http://plugins.jetbrains.com/plugin/?idea&id=1347下载对应的zip包,不用解压,这个也已经上传云盘了,

把下载的.zip格式的scala插件放到Intellij的安装的plugins目录下;

再安装刚刚放到Intellij的plugins目录下的scala插件(注:直接安装zip文件)即可。

Spark SQL中的窗口函数(window function)是一种可以在数据集的子集上进行聚合计算的函数。它可以在不改变原始数据集的情况下,对数据进行分组、排序、排名等操作,从而实现更加复杂的数据分析和处理。 窗口函数的使用需要定义一个窗口(window),窗口可以理解为一个数据集的子集,它可以通过指定窗口的大小、排序方式、分组方式等参数来确定。在窗口内部,可以使用各种聚合函数(如sum、avg、count等)进行计算,同时还可以使用一些特殊的函数(如rank、dense_rank、row_number等)对数据进行排序和排名。 窗口函数的语法如下: ``` <窗口函数> OVER ( [PARTITION BY <分组字段>] [ORDER BY <排序字段> [ASC|DESC]] [ROWS <N> PRECEDING|FOLLOWING] ) ``` 其中,PARTITION BY用于指定分组字段,ORDER BY用于指定排序字段和排序方式(ASC表示升序,DESC表示降序),ROWS用于指定窗口的大小和偏移量(PRECEDING表示向前偏移,FOLLOWING表示向后偏移)。 例如,下面的SQL语句使用窗口函数计算每个部门的平均工资和排名: ``` SELECT dept, avg(salary) OVER (PARTITION BY dept ORDER BY salary DESC) as avg_salary, rank() OVER (PARTITION BY dept ORDER BY salary DESC) as rank FROM employee ``` 在这个例子中,我们使用了PARTITION BY将数据按照部门进行分组,然后使用ORDER BY将每个部门内的数据按照工资降序排序。最后,我们使用avg和rank函数对每个部门内的数据进行计算,得到了每个部门的平均工资和排名。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值