头歌Educoder云计算与大数据——实验三分布式文件系统HDFS

最新推荐文章于 2024-07-14 17:09:55 发布

诺贝尔螺旋奖

最新推荐文章于 2024-07-14 17:09:55 发布

阅读量3.7w

点赞数 78

分类专栏：大数据头歌文章标签： hdfs big data hadoop

本文链接：https://blog.csdn.net/weixin_44908105/article/details/120924589

版权

这篇博客详细介绍了如何使用Hadoop的HDFS进行文件操作，包括基本命令、Java API读取、上传、删除文件。通过四个关卡，逐步讲解了HDFS的NameNode与DataNode，以及FSDataInputStream和FSDataOutputStream对象的使用方法。

摘要由CSDN通过智能技术生成

第1关：HDFS的基本操作

任务描述

本关任务：使用Hadoop命令来操作分布式文件系统。

编程要求

在右侧命令行中启动Hadoop，进行如下操作。

在HDFS中创建/usr/output/文件夹；
在本地创建hello.txt文件并添加内容：“HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。”；
将hello.txt上传至HDFS的/usr/output/目录下；
删除HDFS的/user/hadoop目录；
将Hadoop上的文件hello.txt从HDFS复制到本地/usr/local目录。

测试说明

平台会查看你本地的文件和HDFS的文件是否存在，如果存在，则会将其内容输出到控制台。

预期输出：
HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。
HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。

代码实现

//一行一步
start-dfs.sh
hadoop fs -mkdir -p /usr/output
mkdir -p /develop/input
cd /develop/input
touch hello.txt
vim hello.txt
按i键输入以下内容

HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。

hadoop fs -put hello.txt /usr/output/
hadoop fs -rmr /user/hadoop
cd
mkdir -p /usr/local
hadoop fs -copyToLocal /usr/output/hello.txt /usr/local

第2关：HDFS-JAVA接口之读取文件

任务描述

本关任务：使用HDFS的Java接口进行文件的读写，文件uri地址为hdfs://localhost:9000/user/hadoop/task.txt。

编程要求

在右侧代码编辑区中编写代码实现如下功能：

使用FSDataInputStream获取HDFS的/user/hadoop/目录下的task.txt的文件内容，并输出，其中uri为hdfs://localhost:9000/user/hadoop/task.txt。

测试说明

点击评测，平台会通过脚本创建/user/hadoop/task.txt文件并添加相应内容，无需你自己创建，开启hadoop，编写代码点击评测即可。因为Hadoop环境非常消耗资源，所以你如果一段时间不在线，后台会销毁你的镜像，之前的数据会丢失（你的代码不会丢失），这个时候需要你重新启动Hadoop。

预期输出：

WARN [main] - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
怕什么真理无穷，进一寸有一寸的欢喜。

第一行打印出来的是log4j的日志警告，可以忽略。

代码实现

代码文件

package step2;

import java.io.IOException;
import java.io.InputStream;
import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;


public class FileSystemCat {
   
	
	public static void main(String[] args) throws IOException {
   
		//请在Begin-End之间添加你的代码，完成任务要求。
        //请按照左侧的编程要求进行编写代码
		//文件地址为 "hdfs://localhost:9000/user/hadoop/task.txt"
        /********* Begin *********/
		URI uri =