读操作语言描述
1.使用客户端Distributed FileSystem对象,通过RPC连接调用NameNode获取文件的block信息,对于每个block,NameNode会返回存有block副本信息的DataNode的地址,返回的地址会通过这些DataNode与客户端的距离进行排序
2.Distribute FileSystem 会返回一个FSDataInputStream对象,该对象内封装着一个DFSInputStream对象,该对象管理者NameNode与DataNode的IO,用于客户端的使用
3.客户端通过FSDateInputStream调用read方法读取数据流,在读取数据流时,DFSInputStream会连接与客户端最近的当前读取的block副本所在DataNode的节点,读取结束后,DFSInputStream会断开与当前block所在DataNode的连接,去连接距离客户端最近的下一个block块所在的DataNode。客户端只需要进行读取,下面block的切换对客户端是透明的
4.当客户端完成读取后,关闭FSDataInputStream的输入流即可
5.在读取时出错时,会尝试从下一个临近节点进行读取,并将该故障节点告知NameNode,这样就不用以后再到该节点上读取数据了
6.DFSDataInputStream也会通过校验和进行确认获取的数据是否出现错误,若出现错误,通知NameNode,并从其它副本读取该block。
读操作代码如下
package com.bjsxt.hadoop.test;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;
public class HadoopDemo1 {
private Configuration conf;
private FileSystem fs;
@Before
public void init() throws IOException, InterruptedException, URISyntaxException {
conf = new Configuration(true);
fs = FileSystem.get(new URI("hdfs://mycluster"), conf, "root");
}
@Test
public void testDownload() throws IOException {
//文件写入本地的位置
FileOutputStream fos = new FileOutputStream("/Users/zzw/Desktop/hello2.txt");
//文件读取hdfs中文件的位置
Path path = new Path("/hello.txt");
FSDataInputStream fis = fs.open(path);
//通过hadoop工具类将文件输入流写入到输出流中
IOUtils.copyBytes(fis, fos, conf);
//关闭输入输出流
fos.flush();
fos.close();
fis.close();
}
@After
public void close() throws IOException {
if(fs != null) {
fs.close();
}
}
}