Ubuntu搭建Hadoop单机/伪分布式过程

一、安装前的准备

  1. Vmware+Ubuntu22.04
  2. Ubuntu中文设置 小问题:安装完中文语言包重启后没有变化:需要在setting->language里把灰色的“汉语”从后面拖拽到前面(自动变黑)之后再重启。
  3. 虚拟机/主机 共享文件夹设置 小问题:在修改/etc/fstab文件使其开机时自动挂载共享文件夹时,要使用root账户才能修改,否则打开后输入内容不能保存,这时退出vim时输入 esc-> :q! 强制退出后再进入root账户修改。
  4. 查看虚拟机ipv4地址:①右上角->有线已连接->有线设置->设置 。 ②sudo apt install net-tools下载完成后输入ifconfig来查看本机ipv4地址。
  5. JAVA安装包下载地址
    Hadoop安装包下载地址

二、正式进入Hadoop配置环节

  1. 正常使用该链接即可配置成功

  2. 可能遇到的问题:
    查看软件版本时提示没有下载
    一般是路径或配置文件中的版本号不对应所导致。

    linux下jps报command not found
    该链接下的第一个方法即可解决:以 root 身份 vi /etc/profile,然后在下面加一行 export PATH="usr/java/jdk160_05/bin:$PATH"(其中 jdk160_05 是你的安装目录,依你自己的安装情况所决定),然后 source /etc/profile 即可解决。

    web端访问HDFS
    Hadoop集群启动后,可以通过自带的浏览器Web界面查看HDFS集群的状态信息,访问IP为NameNode所在服务器的IP地址,hadoop版本为3.0以前访问端口默认为9870,hadoop版本为3.0以后访问端口默认为50070。

    无法访问Web端的原因可能是防火墙没有关闭。这里针对防火墙问题无法访问给出解决方案

    systemctl stop firewalld //停止防火墙
    systemctl disable firewld //永久关闭防火墙
    

    ④如果不想每次转到路径之后才能启动Hadoop:

    vi ~/.bashrc //打开环境变量配置,添加如下路径
    export HADOOP_HOME=/usr/local/hadoop //hadoop的存放路径
    export PATH=${HADOOP_HOME}/sbin:${HADOOP_HOME}/bin:$PATH
    

    需要注意:这样做之后会导致hdfs下的文件操需要填写完整路径才能正确运行操作。

三、其他小点

  1. hdfs常用命令、利用Java API与HDFS进行交互、Mergefile实例
  2. WordCount实例
  3. 林子雨老师大数据开源框架配套材料
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 1. 安装Java环境 首先,需要安装Java环境。可以通过以下命令安装: sudo apt-get update sudo apt-get install default-jdk 2. 下载Hadoop 在官网下载Hadoop压缩包,解压到指定目录下。例如: sudo tar -zxvf hadoop-2.7.7.tar.gz -C /usr/local/ sudo mv /usr/local/hadoop-2.7.7 /usr/local/hadoop 3. 配置Hadoop 进入Hadoop的安装目录,修改配置文件。例如: cd /usr/local/hadoop/etc/hadoop/ sudo nano hadoop-env.sh 将JAVA_HOME设置为Java环境的安装路径: export JAVA_HOME=/usr/lib/jvm/default-java 然后,修改core-site.xml文件: sudo nano core-site.xml 添加以下内容: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:900</value> </property> </configuration> 接着,修改hdfs-site.xml文件: sudo nano hdfs-site.xml 添加以下内容: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop/hadoop_data/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop/hadoop_data/hdfs/datanode</value> </property> </configuration> 最后,修改mapred-site.xml.template文件: sudo nano mapred-site.xml.template 将文件名改为mapred-site.xml,并添加以下内容: <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 4. 启动Hadoop 启动Hadoop,执行以下命令: cd /usr/local/hadoop/sbin/ sudo ./start-all.sh 5. 验证Hadoop 在浏览器中输入http://localhost:50070,可以看到Hadoop的Web界面。在终端中输入以下命令,可以验证Hadoop是否正常运行: hadoop fs -mkdir /test hadoop fs -ls / ### 回答2: Ubuntu是Linux操作系统的一种版本,而Hadoop是一种用于大数据处理的开源分布式系统。在Ubuntu搭建Hadoop分布式,可以实现在单台计算机上模拟多台计算机的分布式环境,这样可以方便开发人员进行测试和开发。 以下是Ubuntu搭建Hadoop分布式的步骤: 1. 安装Java 首先,Ubuntu系统需要安装Java。Hadoop需要Java支持,因此需要在Ubuntu系统上安装Java运行环境。 2. 下载HadoopHadoop官方网站上下载最新版本的Hadoop,保存到Ubuntu系统中。 3. 解压Hadoop文件 在Ubuntu系统中打开终端,进入Hadoop文件所在的目录,运行以下命令: tar -zxvf hadoop-x.x.x.tar.gz 其中“x.x.x”代表Hadoop版本号。 解压后会生成一个目录,将该目录改名为“hadoop”。 4. 配置Hadoop环境变量 在终端中打开/etc/environment文件,添加以下两行,表示设置JAVA_HOME和HADOOP_HOME环境变量: export JAVA_HOME=/usr/lib/jvm/java-version(该行需要根据实际情况修改) export HADOOP_HOME=/usr/local/hadoop 保存并退出。 在终端中打开~/.bashrc文件,添加以下两行: export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop 保存并退出,并在终端中运行以下命令,让环境变量生效: source ~/.bashrc 5. 修改Hadoop配置文件 在hadoop目录下,进入etc/hadoop目录,修改以下配置文件: (1)将core-site.xml文件中的以下内容修改为: <configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration> (2)将hdfs-site.xml文件中的以下内容修改为: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value> </property> </configuration> (3)将mapred-site.xml文件中的以下内容修改为: <configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration> (4)将yarn-site.xml文件中的以下内容修改为: <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration> 6. 格式化Hadoop文件系统 在终端中进入hadoop目录,运行以下命令: bin/hdfs namenode -format 该命令将格式化Hadoop文件系统,生成namenode和datanode。 7. 启动Hadoop 在终端中进入hadoop目录,运行以下命令: sbin/start-all.sh 该命令将启动Hadoop集群。 8. 测试Hadoop 在终端中运行以下命令: bin/hadoop dfs -mkdir /test 该命令将在Hadoop文件系统中创建一个文件夹。 运行以下命令: bin/hadoop dfs -ls / 该命令将列出Hadoop文件系统中的所有文件夹。 如果以上命令都能正常执行,表示已经成功在Ubuntu系统上搭建Hadoop分布式环境。 ### 回答3: Ubuntu是一个基于Linux操作系统的开源软件,供用户免费使用。Hadoop是一个Apache软件基金会的分布式存储及计算系统,用于大数据处理和分析。本文将针对使用Ubuntu搭建Hadoop分布式进行详细介绍。 一、安装Java 由于Hadoop是基于Java开发的,因此需要安装Java环境。使用以下命令安装: sudo apt-get update sudo apt-get install default-jdk 安装完成后,使用"java -version"和"javac -version"来检查是否成功安装Java。 二、准备安装Hadoop 首先,我们要先从Apache的官网下载所需的Hadoop版本,并解压。将解压后的文件夹复制到指定的目录,例如/home/hadoop/hadoop-2.8.0。 三、配置Hadoop 1. 配置hadoop-env.sh 使用以下命令打开hadoop-env.sh文件: cd $HADOOP_HOME/etc/hadoop sudo nano hadoop-env.sh 在文件末尾添加以下内容,设置JAVA_HOME为系统中Java的路径: export JAVA_HOME=/usr/lib/jvm/default-java 2. 配置core-site.xml core-site.xml为Hadoop的核心配置文件,可以设置与文件系统和网络有关的参数。使用以下命令打开core-site.xml: sudo nano core-site.xml 在文件中添加以下内容: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> 3. 配置hdfs-site.xml hdfs-site.xml为Hadoop文件系统配置文件,可以设置文件系统的相关参数。使用以下命令打开hdfs-site.xml: sudo nano hdfs-site.xml 在文件中添加以下内容: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/home/hadoop/data/dfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/hadoop/data/dfs/datanode</value> </property> </configuration> 其中dfs.replication设置文件的副本数,dfs.namenode.name.dir和dfs.datanode.data.dir为数据存储目录。 四、启动Hadoop 使用以下命令启动Hadoop分布式模式: hadoop namenode -format start-all.sh 其中"start-all.sh"为启动所有Hadoop服务的脚本。使用命令jps来检查所有服务是否已经启动。若成功启动,则可在"localhost:50070"上查看Hadoop的Web UI界面。 五、运行Hadoop任务 在Hadoop分布式模式下,可使用以下命令运行Hadoop任务: hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input output 'dfs[a-z.]+' 以上为基础的Hadoop分布式模式配置和运行,用户可以根据自身需求,对Hadoop进行更详细的配置和使用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值