提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
提示:以下是本篇文章正文内容,下面案例可供参考
一、如何在虚拟机内配置JDK.hadoop.spark
首先需要下载ubuntu操作系统,这里选用的是vmmarw Workstation PRO17版本进行的。
可以直接访问官网,这里推荐使用清华镜像文件。
清华大学开源软件镜像站 | Tsinghua Open Source Mirror
这里提供的清华镜像网址,这里有很多的版本供选择
二、使用步骤
1.下载JDK
上述镜像站有关于jdk的版本信息,选择合适的版本进行下载。
下载好压缩包会默认存放在 /home/user/下载 tar xzvf 这里添加自己下载jdk的信息.tar.gz
例:
tar xzvf jdk-21-linux-x64.tar.gz
在 /usr/lib 下创建JDK文件夹
cd /usr/lib
sudo mkdir jdk
注意!!在这里如果已经在root账户下就不需要加sudo
将文件复制到该文件夹下:
sudo mv /home/ubuntu/下载/jdk1.8.0/ /usr/lib/jdk
上面的代码需要通过属性查看自己的路径,实例仅供参考。
修改系统配置,安装vim编辑器
sudo apt-get install vim
配置环境变量:
sudo vim /etc/profile
在该文件中添加以下内容:
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0
export JRE_HOME=${JSVS_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
以上代码仅为实例,第一个的仍需要改成自己的版本和路径,可以通过属性查看。
执行命令立刻生效:
source /etc/profile
此时可以查看版本信息:
java -version
如果显示版本信息配置成功
2.安装Hadoop
可以直接访问hadoop官网进行安装,浏览器直接搜索即可,选择合适的版本下载
下载会默认放在下载文件,解压时可以选择路径解压
下载完成后,解压缩文件:
tar -xvzf hadoop-[版本号].tar.gz
将解压后的文件移动到/usr/local目录下:
sudo mv hadoop-[版本号] /usr/local/hadoop
创建日志目录:
sudo mkdir /usr/local/hadoop/logs
最后,将/usr/local/hadoop目录的所有权更改为hadoop用户:
sudo chown -R hadoop:hadoop /usr/local/hadoop
配置Hadoop 首先,打开.bashrc文件:
sudo nano ~/.bashrc
在文件末尾添加以下内容:
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
在这我没添加这么多,但是这也是一种解决方案。
保存并关闭文件后,使用以下命令使更改生效:
source ~/.bashrc
配置Java环境变量 编辑hadoop-env.sh文件:
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
取消注释JAVA_HOME变量,并将Java安装路径添加到变量中:
export JAVA_HOME=/usr/lib/jvm/default-java
保存并关闭文件。
编辑文件可以使用 vim和gedit 退出方法为 esc键 :wq! 冒号是必须加的
如果esc键没有用何妨不试试 fn 加esc呢
java -version 指令能够输出正确的版本信息及为成功
配置Hadoop的核心文件 编辑core-site.xml文件:
sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml
这里我直接切换到了对应的路径,然后用的vim指令
cd /usr/local/hadoop
vim core-site.xml
当输入一个路径,可以尝试使用dir下一层的子文件。
一个小技巧:Tab键有自动补齐的功能,当我们输入路径中有jdk 或者hadoop时不妨按个tab键,如果没能补齐证明路径错误,需要重新检查路径,但是这方法在命令行里无效。(这是来自聪明XM的技巧)
将以下内容添加到<configuration>标签中:
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
关闭并保存文件的方法同上
编辑hdfs-site.xml文件:
sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
将以下内容添加到<configuration>标签中:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
编辑mapred-site.xml文件:
sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
将以下内容添加到<configuration>标签中:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
编辑yarn-site.xml文件:
sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
将以下内容添加到<configuration>标签中:
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
格式化HDFS NameNode并启动Hadoop集群 使用以下命令格式化HDFS NameNode:
hdfs namenode -format
然后,启动Hadoop集群:
start-dfs.sh
start-yarn.sh
使用以下命令验证所有组件是否正常运行:
jps
通过浏览器访问Hadoop UI 使用浏览器访问以下URL以访问Hadoop的用户界面:
http://localhost:9870
hadoop指令能够显示正确的版本信息
3.配置集群环境
需要再复制两台虚拟机
更改两台复制虚拟机的名称:sudo hostnamectl set-hostname node1
sudo hostnamectl set-hostname node2
配置ssh免密登录:
sudo apt install net-tools
查看主机IP地址:
config指令
inet 后内容为当前主机的IP地址
修改host文件:
sudo vim /etc/hosts
在其中添加内容:
192.168.29.128 master
192.168.29.129 node1
192.168.29.130 node2
这里的master是主机名称
node1 node2为克隆的虚拟机名称
安装ssh服务:
sudo apt-get install openssh-server
配置ssh协议,在3台主机上生成公钥和密钥。
ssh-keygen -t rsa
然后将node1和node2上的id_rsa.pub用sep命令
经过了一天的努力,我决定重装虚拟机!
总结
重装了!