【曲折版】配置spark环境（含前期的虚拟机virtualbox、ubuntu系统、Hadoop布局、Java环境配置等）

最新推荐文章于 2023-11-30 15:57:44 发布

SophiaSSSSS

最新推荐文章于 2023-11-30 15:57:44 发布

阅读量1.2k

点赞数 2

分类专栏：数据分析工具学习帖文章标签： spark Hadoop Java ubuntu Linux

本文链接：https://blog.csdn.net/weixin_44216391/article/details/94590455

版权

数据分析工具学习帖专栏收录该内容

25 篇文章 1 订阅

订阅专栏

看MOOC慕课网上的spark课程，首先配置spark环境。

spark需要与Hadoop共同协作，所以在安装spark之前要先安装Hadoop，而spark和Hadoop又基于Java语言，所以在Hadoop之前需要先配置Java环境。
然后问题又来了，整个spark、Hadoop运行环境，在非Windows系统上运行较佳，所以还得先装虚拟机和虚拟系统。。。

下面从前到后按步骤来：

一、在Windows中使用VirtualBox安装Ubuntu
详情请戳 http://dblab.xmu.edu.cn/blog/337-2/ （本教程由厦门大学数据库实验室 / 给力星出品，转载请注明。）

安装ubuntu18.04.2时，发现安装步骤页面与上面帖子所述不一致（可能有版本更新影响），于是重新搜索了新帖来参考ubuntu虚拟系统的安装，如下链接：
https://www.cnblogs.com/alonely/p/10299802.html （Ubuntu Server 18.04 LTS安装）

【补充时间节点】
2019.7.3 21:30-23:20，各种折腾下载ubuntu镜像和spark、Hadoop安装包。先是用的搜狗默认下载，然后老失败，尝试N遍，老是在一开始下载速度超快，到后面快要下载完的时候急剧降速再然后就直接“下载失败”了。咨询了IT出身的老弟，简短推荐“换个下载工具”，于是立即下载安装迅雷，换了迅雷之后，果然下载就正常了。这个时间段，下载安装了比较轻巧的虚拟机virtualBox。
2019.7.3 23:20-2019.7.4 凌晨1:30 开始在虚拟机上安装ubuntu，参考帖子。0/12-10/12基本为设置阶段，照着帖子处理，秒运行；安装到了11/12进度时，已经凌晨一点半了，而且是在后台较长时间的安装，于是先睡，等后台安装。

2019.7.4 早7:15 ubuntu的11/12已装好，出现reboot，于是照着帖子提示reboot，然后出现了“VirtualBox显示FATAL：No bootable medium found! System halted”——于是又开始了轰轰烈烈的“纠错”过程。。。

2019.7.4 早7:15 - 8:00，纠错完毕。方法见 https://blog.csdn.net/qq_37189082/article/details/79544523 （相当于重新走一遍安装流程）

2019.7.4 早8:10，登录，忘了账户名是ubuntu还是my_ubuntu，于是都试了试。还有，密码输入处，输了密码也没反应，没提示“*****”，于是我好慌，以为又出什么幺蛾子。结果是，敲键盘输完密码（虽然没显示），回车之后，就登录上了，如下图。（应该是登录上的状态了吧。。。）
在这里插入图片描述

二、Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
详情请戳 http://dblab.xmu.edu.cn/blog/install-hadoop/ （本教程由厦门大学数据库实验室 / 给力星出品，转载请注明。）

（7.4晚九点续）帖子说到，安装Hadoop之前，要先在ubuntu系统上创建Hadoop用户，于是。。。打开虚拟系统，按了“ ctrl+alt+t ”，然而没反应，不知道怎样才能打开终端窗口。。问老弟，老弟回了句“百度一下”，于是我去百度了。。。
在这里插入图片描述
发现了：
《解决Ubuntu18.04使用快捷键 Ctrl+Alt+T 无法打开终端的问题》https://blog.csdn.net/qq_41139830/article/details/85459376
然而人家帖子里的界面，是mac系统，而且ubuntu设置界面也不一样。。。没搞定。。

7.6泡了一下午的广州图书馆，把Linux的基础知识大致浏览了一遍，知道了 desktop和server的区别。。。。

7.7周日早出门前再战半个钟：
疑惑为嘛自己的系统全部是命令窗口，没有类似于Windows的交互窗口，而第一步厦门大学http://dblab.xmu.edu.cn/blog/337-2/ 帖中的例子都是有交互窗口的。
然后逛了逛，联想到前一天了解到的desktop和server的区别（果然看书还是有用的），发现自己镜像安装包ubuntu-18.04.2-live-server-amd64.iso，本来就是server版本(⊙o⊙)…
于是，赶紧上ubuntu官网下个desktop版本，也退回到16.04版本，与厦门大学spark课程中的使用环境保持完全一致，方便后续学习。
这次下载网址：https://www.jianshu.com/p/123489c8b991 中的阿里云开源镜像站，镜像全名ubuntu-16.04.6-desktop-amd64.iso。看到下载进度条正常，我心甚慰。
在这里插入图片描述

2019.7.8 周一晚再战

重装虚拟系统ubuntu-16.04-desktop，终于与原生帖子接近一致了。
再放一次帖子：在Windows中使用VirtualBox安装Ubuntu http://dblab.xmu.edu.cn/blog/337-2/ （本教程由厦门大学数据库实验室 / 给力星出品，转载请注明。）
在这里插入图片描述
正常安装中，开心……（下图）

后面安装成功，此处不赘述。

7.11继续撸。
装完ubuntu，自然是继续按照帖子里说的，配置Hadoop用户，以及安装Java环境。
再附一次链接 http://dblab.xmu.edu.cn/blog/install-hadoop/ （Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04）

（1）配置Hadoop用户账户阶段比较顺利，此处不赘述。

（2）安装Java环境阶段，遇到了卡壳。
每次输入 vim ~./bashrc，都遇到下图情况。这个时候想退出terminal还得强制关闭，试了几次之后放弃了按照原帖子继续进行。后来灵光一闪，想到通过地毯式大规模搜索bashrc相关知识，先对bashrc做深入了解，再回来解决这个“通过bashrc进行环境配置”的问题。
在这里插入图片描述
历经千辛万苦，搜了好多篇关于bashrc的帖子，摸黑尝试 vim ~./bashrc，最后误打误撞改成“vim ./bashrc”，才顺利推进了这一步环境变量的配置。宣告成功！（如下图）

（3）装完Java环境后回来继续配置Hadoop。
以为一切顺利的时候，突然又来了个报错。。。
Error: JAVA_HOME is not set and could not be found.
初步猜测是之前配置JAVA环境变量的时候，自作主张把参考帖子中的“~”去掉，即，把“vim ~./bashrc”换成了“vim ./bashrc”，所以实际上JAVA_HOME环境变量是没配置成功的。
那问题来了，原贴的“vim ~./bashrc”次次都报错，进行不下去。。。咋办。。。
根据以上分析，问题应该回归到，“如何配置JAVA_HOME”SHANG”了。
在这里插入图片描述
既然前面提示Error: JAVA_HOME is not set and could not be found.
那我们接下来就重点解决“如何配置JAVA_HOME”SHANG”。

7.13
突然意识到25G的ubuntu系统不够干大事，自己的500G固态硬盘分了350出去当主系统盘之后，还有115G剩余，刚好可以把虚拟机和ubuntu全丢过去，又不会占用到原Windows系统盘的空间。于是打算重新装虚拟机和ubuntu系统，再在这基础上布局Hadoop、Java、spark等。

（未完待续，接下来转新帖 https://blog.csdn.net/weixin_44216391/article/details/95730208 【畅通版】配置spark环境（含前期的虚拟机virtualbox、ubuntu系统、Hadoop布局、Java环境配置等））

SophiaSSSSS

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
【曲折版】配置spark环境（含前期的虚拟机virtualbox、ubuntu系统、Hadoop布局、Java环境配置等）

看MOOC慕课网上的spark课程，首先配置spark环境。spark需要与Hadoop共同协作，所以在安装spark之前要先安装Hadoop，而spark和Hadoop又基于Java语言，所以在Hadoop之前需要先配置Java环境。然后问题又来了，整个spark、Hadoop运行环境，在非Windows系统上运行较佳，所以还得先装虚拟机和虚拟系统。。。下面从前到后按步骤来：本教程由厦门...
复制链接

扫一扫