数据同步任务报错:Server returned HTTP response code:401 for url
查看easymanager,发现zkfc的2个节点挂掉,使用滚动重启后恢复健康状态,但是再次执行任务还是报错。
分析发现是从服务器拉取日志报错,实际后台任务已经执行完成,数据量也能对上。
错误1:Could not establish connection to jdbc:hive...Read time out 或者 后台接口调用异常,状态码:402,说明信息:无法调用接口
问题排查,先检查em中hadoop服务的状态,之前遇到的问题就是“问题2”中的情况,重启之后解决。
错误2:Operation category READ is not supported in state standby
解决办法:先把zkfc和namenode重启一下,namenode重启后需要等一会儿 再看看它的状态有没有正常吧。
错误3:SparkException:Job aborted due to stage failure...has failed the maximum allowable number of times:4...Missing an output location for shuffle 4
该错误是数据量大或者数据倾斜的问题
排查后发现是dwmc字段都是空的,后面将数据处理后执行成功。
问题4 两个namenode都是standby状态问题
基本上隔两天就出现集群两个namenode都是standby状态,需要重启解决(8月10日出现多次重启也无法恢复正常的问题)
因为zkfc状态是健康的就没有重启,后来数栈的人让把zkfc重启后,再次重启namenode,节点恢复正常一个active、一个standby
错误5 数据同步任务不能有中文
数据同步任务,执行中报错,尝试勾选记录错误数据,但是点击保存时报错:解析同步任务失败,创建表失败。
原因:
因为默认创建的表名里带了中文
解决办法:
指定表名保存成功了
问题7
页面上zkfc挂掉了。
排查过程:
在178上执行下这个 netstat -na | grep 2181 | wc -l
你先在zkfc那里点击启动看下能不能起来
嗯~等一下再看看namenode的状态,应该会自动恢复的
看下namenode状态恢复了吗--没有
还在178上执行看看:
hdfs haadmin -getServiceState nn1
hdfs haadmin -getServiceState nn2
有一个active和一个standby说明好了,刷新页面即可
问题:System times on machines may be out of sync,check system may be out of sync,check system time and time zone.
原因集群的服务器时间不一致。
每台服务器上都执行一下date,查看时间差距
cat /etc/ntp.conf
systemctl status ntpd 如果是active状态,先停止再执行手动同步时间命令
ntpdate 222.65.155.176 手动同步时间
systemctl start ntpd 启动ntp服务
systemctl status ntpd 查看ntp服务
问题:实时任务报错
原因是目标库的权限是只读,没有写入权限,人大金仓数据库主备节点切换,导致的。把数据源中配置信息改为漂移ip即可。
问题:实时任务报错
原因BOO 字段值设置的不能为空