【无标题】org.apache.hadoop.ipc.RemoteException

最新推荐文章于 2023-12-07 19:24:31 发布

不吃饭的猪

最新推荐文章于 2023-12-07 19:24:31 发布

阅读量267

点赞数

分类专栏： hadoop 文章标签： hadoop apache hdfs

本文链接：https://blog.csdn.net/weixin_51473488/article/details/129815161

版权

hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在这里插入图片描述
写入hdfs发现日志报错:
2023-03-28 13:50:14,988 [Thread-12] WARN org.apache.hadoop.hdfs.DFSClient - DataStreamer Exception
org.apache.hadoop.ipc.RemoteException: File /datas/xinfo/tmp/4g nt_tmp/day=2023328/hour=13/4g_xdrvent_tmp_2034923_46bd4a785
-d42a-455e-90e5-0b9082a4b399.tmp could only be replicated to 0 nodes instead of minReplication (=1). There are 14 datanode(s) running and no node(s) are
excluded in this operation.
at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:1620)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getNewBlockTargets(FSNamesystem.java:3135)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:3059)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:725)
at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:493)
at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol $2. c a llBl oc kin g M e t h o d (Cl i e n tN am e n o d e P ro t oco lP ro t os . ja v a) a t or g . a p a c h e . ha d oo p . i p c . P ro t o b u f Rp c E n g in e$ Server $P ro t o B u f Rp c I n v o k er . c a ll (P ro t o b u f Rp c E n g in e . ja v a : 616) a t or g . a p a c h e . ha d oo p . i p c . RPC$ Server.call(RPC.java:982)
at org.apache.hadoop.ipc.Server$Handler $1. r u n (S er v er . ja v a : 2217) a t or g . a p a c h e . ha d oo p . i p c . S er v er$ Handler$1.run(Server.java:2213)
at java.security.AccessController.doPrivileged(Native Method)
–More–(2%)

此错误是由 HDFS 的块复制系统引起的，因为它无法制作特定块的任何副本，但是数据节点是有的。
解决思路：
排查nn是否正常

本次错误就是原因9造成的
常见原因：
1、只有一个 NameNode 实例正在运行，并且它不处于安全模式
2、没有 DataNode 实例启动并运行，或者一些已经死了。（检查服务器）
3、Namenode 和 Datanode 实例都在运行，但是它们不能相互通信，这意味着 DataNode 和 NameNode 实例之间存在连接问题。
4、由于某些基于 hadoop 的网络问题，正在运行的 DataNode 实例无法与服务器通信（检查包含 datanode 信息的日志）
5、为DataNode实例配置的数据目录中没有指定硬盘空间或DataNode实例空间不足。（检查 dfs.data.dir // 删除旧文件（如果有）
6、dfs.datanode.du.reserved 中为DataNode 实例指定的预留空间大于空闲空间，这使得DataNode 实例知道没有足够的空闲空间。
7、DataNode 实例没有足够的线程（检查 datanode 日志和 dfs.datanode.handler.count=10 值）
8、数据权限传输问题，确保 dfs.data.transfer.protection 不等于“authentication”并且 dfs.encrypt.data.transfer 等于 true。
9，集群资源不够
查看集群资源：

发现集群资源占满了，