前段时间太忙,很久没有写日志,刚刚好碰到一次事故,虽然查询解决比较简单,还是记录下。
早上发现准生产环境大批作业报错,作业没有起起来,查了CDH集群,所有组件都崩了,再仔细查看,原来是因为master1节点日志写满了磁盘,所以集群停止了运作。。
- 涉及Linux关于磁盘设备挂载的知识 :
- /dev目录
- /dev/mapper 进行设备映射
- 关于cdh集群日志的存放路径:
- /var/log 关于各个组件的日志
- /var/lib 下关于cloudera manager进程的日志
清理日志后集群自动回复正常,调起作业开始跑批,但是发现大批次作业依然是报错:hdfs file not found, 怀疑是cdh崩溃的时候impala catalog server 发生问题,所以界面上重启组件impala,再次调起作业跑批,作业正常运行。
反思
大数据的运维离不开linux平台,对于linux的了解仍然需要巩固。
平台的监控、运维进程很重要,这部分需要提上日程。