这个问题困扰了我一晚上,开始我上传了一个670M的文件到HDFS上,但是直接报了如下的错误:
java.io.IOException: Unable to close file because the last block does not have enough number of replicas.
at org.apache.hadoop.hdfs.DFSOutputStream.completeFile(DFSOutputStream.java:2266)
at org.apache.hadoop.hdfs.DFSOutputStream.close(DFSOutputStream.java:2233)
at org.apache.hadoop.fs.FSDataOutputStream$PositionCache.close(FSDataOutputStream.java:72)
at org.apache.hadoop.fs.FSDataOutputStream.close(FSDataOutputStream.java:106)
我看到last block这个词组就知道肯定是分块的时候gg了,于是我去管理界面看,然后发现只侦测到一个datanode节点,而且我刷新页面时,hadoop1,hadoop2.hadoop3这三个datanode交替出现,且每次只出现一个,我就觉得很奇怪,然后我去看看我上传的文件,我发现HDFS里有我这个文件,但是我看到这个文件只在hadoop1里分块,然后我又删了重新上传,然后又发现它只在hadoop2里分块,这真是太奇怪了,就好像这三个datanode是没有关系一样,但是我配置文件明明都配好了。但是我发现,用jps查看结点时,刚开始三台机子的datanode都活着,当我上传该文件时,就会死掉两个datanode,我仔细回忆了一下搭集群的过程,我先是搭好hadoop1,然后将所有东西克隆了两份,我估摸着一定是datanode的某个东西重复了,于是我想了一下,namenode是没问题的,但是datanode随机只出现一个,说明datanode里面某些值完全一样,然后namenode读到同样的值,自然就只能让一个datanode出现,然后我就想到了一个非常隐秘的配置文件。
如下图:
上图所示,这个VERSION文件里,由于我是克隆的,这三台机子起初这个文件里面的内容一模一样,但是现在我要说的是,打红色钩的一定不能一样,绿色钩的一定要一样,绿色钩的这个参数是为了说明这三个datanode在同一个集群,而红色钩是为了区分这三个datanode。(随便改成不一样的)
这个文件在下图所示的地方,请自行对照:
改完后启动三台机子的hdfs,然后去管理页面看:
三个datanode都出现了
而且分块也可以了
java代码测试分块
public void testGetBlockInfomation() throws Exception {
Configuration conf=new Configuration();
//FileSystem fSystem=FileSystem.get(conf);
FileSystem fSystem=FileSystem.get(new URI("hdfs://hadoop1:9000"), conf, "ygp");
Path path = new Path("/PPT.zip");
RemoteIterator<LocatedFileStatus> status = fSystem.listLocatedStatus(path);
while(status.hasNext()) {
LocatedFileStatus locatedFileStatus = status.next();
System.out.println("属主:"+locatedFileStatus.getOwner());
System.out.println("属组:"+locatedFileStatus.getGroup());
//---------------块的位置信息--------------------
BlockLocation[] blockLocations = locatedFileStatus.getBlockLocations();
for (BlockLocation blockLocation : blockLocations) {
System.out.println(blockLocation);
System.out.println("------------------------");
}
}
成功!!