Hadoop平台搭建与数据分析实验报告

最新推荐文章于 2025-03-22 11:47:37 发布

椅糖

最新推荐文章于 2025-03-22 11:47:37 发布

阅读量2.5k

点赞数 1

分类专栏：云计算导论文章标签： hadoop 数据分析大数据

本文链接：https://blog.csdn.net/weixin_51970555/article/details/127127399

版权

本文档详述了在Virtual Box中搭建Hadoop大数据环境的步骤，包括Ubuntu虚拟机的配置、Java安装、Hadoop分布式配置，并展示了如何解决过程中遇到的问题。实验涉及网络配置、SSH免密登录、Hadoop集群的启动与状态检查，以及日志和交通数据的大数据分析操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.将下载好的jdk-8u241-linux-x64.tar.gz使用tar命令解压

2.将Java文件安装到指定目录下，修改环境变量

3.在profile文件中添加以下内容

4．保存并退出，使用以下命令profile文件的修改生效

5.输入以下命令测试Java的安装是否成功

（二）Hadoop的安装

1.将下载好的hadoop-2.7.3.tar.gz包解压，执行解压命令，复制到Hadoop目录

2.解压完成后配置Hadoop环境变量，编辑profile文件

3.在profile文件中添加以下内容

4.保存并退出后使profile文件生效

5.修改Hadoop的配置信息以实现Hadoop的分布式配置，主要需要修改的是/usr/hadoop/etc/hadoop文件夹中的hadoop-env.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml文件，具体修改内容如下：

6.3台虚拟机全部配置完成后，在master节点执行如下指令格式化HDFS文件系统hdfs namenode –format

7.在master节点启动Hadoop集群

Hadoop简介

Hadoop是由Apache研发的开源分布式基础架构，它由Hadoop内核MapReduce Hadoop分布式文件系统(HDFS)及一些相关项目组成，其中，HDFS具有高容错性，负大数据存储；MapReduce则负责对HDES中的大量数据进行复杂的分布式计算。

Hadoop作为分布式架构，采用“分而治之”的设计思想：将大量数据分布式地存放于大量服务器上，采用分治的方式对大数据进行分析。在这种思想的驱使下，Hadoop实现了MapReduce的编程范式。其中“Map”意为映射，其工作是将一个键值对分解为多个键值对:“Reduce”意为归约，其工作是将多组键值对处理合并后产生新的键值对写人 HDFS。通过上述工作原理，MapReduce实现了将大数据工作拆分为多个小规模数据任务在大量服务器上分布式处理。

实验一：构建虚拟机网络

本实验的Hadoop平台搭建共使用3台Ubuntu虚拟机来完成，其中一台为master节点，两台为slave节点。

（一）Virtual Box的安装及配置

VirtualBox Host Only Ethernet Adapter 创建好之后，选择菜单栏中的“管理”——“主机网络管理器”，选择手动配置网卡，将IPv4地址设置为192. 168. 56. 1，IPv4网络掩码设置为255. 255. 255. 0，IPv6地址及网络掩码长度不需要修改，保持DHCP服务器不开启。

（二）Ubuntu虚拟机的安装及配置

创建3台虚拟机，在Virtual Box主界面单击“新建”按钮创建新的虚拟机。

这里需要设置虚拟机的名称，在本实验中建议将3台虚拟机分别命名为master、slave1、slave2，以便识别。类型选择"Linux" ，版本选择"Ubuntu(64-bit)”。单击“下一步”按钮。

进行虚拟机配置的设置，虚拟机内存至少设置为2GB，以保证运行流畅,并为虚拟机创建足够大小的虚拟硬盘。

在创建完成后选中虚拟机，打开右侧的虚拟机设置，选择“网络”选项。其中网卡1默认为“网络地址转换(NAT)”，不需要更改，选择网卡2选中“启用网络连接”复选框。连接方式选择“仅主（Host-Only）网络”,界面名称选择前面建立的Virtual Box Host-Only Ethernet Adapter。在高级选项中设置混杂模式为“全部允许”，其他选项保持默认。

对3台虚拟机都进行上述网络配置，完成后可启动虚拟机，在启动时选择加载Ubuntu镜像即可进行虚拟机安装。

（三）修改Ubuntu系统内的网络配置

在系统安装成功后需要进行网络配置，主要包括3台虚拟机的互联与设置SSH免密登录。

1.查看网卡状态

在进人虚拟机系统后“ctrl+alt+t”打开终端，输入ifconfig –a命令查看当前网卡状态，如图所示。可以看到enp0s3网卡与enp0s8网卡。enp0s3网卡是虚拟机网络设置中的网卡1，负责通过主机连接互联网： enp0s8为Hos-Only网络，负责3台虚拟机组网内互通。不同机器的网卡名称可能不同，且Host Only网卡默认为关闭状态。