hadoop读流程

最新推荐文章于 2023-08-08 11:19:29 发布

hello_zzw

最新推荐文章于 2023-08-08 11:19:29 发布

阅读量166

点赞数

分类专栏：大数据文章标签：大数据 hdfs 读流程

本文链接：https://blog.csdn.net/zzw_17600691357/article/details/89219676

版权

大数据专栏收录该内容

42 篇文章 0 订阅

订阅专栏

读操作语言描述

1.使用客户端Distributed FileSystem对象，通过RPC连接调用NameNode获取文件的block信息，对于每个block，NameNode会返回存有block副本信息的DataNode的地址，返回的地址会通过这些DataNode与客户端的距离进行排序

2.Distribute FileSystem 会返回一个FSDataInputStream对象，该对象内封装着一个DFSInputStream对象，该对象管理者NameNode与DataNode的IO，用于客户端的使用

3.客户端通过FSDateInputStream调用read方法读取数据流，在读取数据流时，DFSInputStream会连接与客户端最近的当前读取的block副本所在DataNode的节点，读取结束后，DFSInputStream会断开与当前block所在DataNode的连接，去连接距离客户端最近的下一个block块所在的DataNode。客户端只需要进行读取，下面block的切换对客户端是透明的

4.当客户端完成读取后，关闭FSDataInputStream的输入流即可

5.在读取时出错时，会尝试从下一个临近节点进行读取，并将该故障节点告知NameNode，这样就不用以后再到该节点上读取数据了

6.DFSDataInputStream也会通过校验和进行确认获取的数据是否出现错误，若出现错误，通知NameNode，并从其它副本读取该block。

读操作代码如下

package com.bjsxt.hadoop.test;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

public class HadoopDemo1 {

	private Configuration conf;
	private FileSystem fs;
	
	@Before
	public void init() throws IOException, InterruptedException, URISyntaxException {
		conf = new Configuration(true);
		fs = FileSystem.get(new URI("hdfs://mycluster"), conf, "root");
	}
	@Test
	public void testDownload() throws IOException {
		//文件写入本地的位置
		FileOutputStream fos = new FileOutputStream("/Users/zzw/Desktop/hello2.txt");
		//文件读取hdfs中文件的位置
		Path path = new Path("/hello.txt");
		FSDataInputStream fis = fs.open(path);
		
		//通过hadoop工具类将文件输入流写入到输出流中
		IOUtils.copyBytes(fis, fos, conf);
		
		//关闭输入输出流
		fos.flush();
		fos.close();
		fis.close();
		
	}
	@After
	public void close() throws IOException {
		if(fs != null) {
			fs.close();
		}
	}
	
}