hadoop高可用集群shell定时采集数据到HDFS

小橙子不会写code

于 2022-04-13 20:39:33 发布

阅读量2.2k

点赞数 4

分类专栏：安全文章标签： linux hadoop

本文链接：https://blog.csdn.net/weixin_48437766/article/details/124155439

版权

本文介绍了如何在Hadoop高可用集群环境中，利用Shell脚本定时采集服务器日志文件并上传到HDFS。通过创建脚本、准备日志存放目录和上传文件，实现自动化处理大量日志数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hadoop高可用集群shell定时采集数据到HDFS

服务器每天会产生大量的日志文件，通过编写简单的shell脚本，用于每天自动采集服务器上的日志文件，并将海量的日志文件上传至HDFS中，通过下面步骤实现shell定时采集数据到HDFS

首先在/export/data/logs目录（如果目录不存在要提前创建）下使用vi命令创建upload2HDFS.sh脚本文件

[root@hadoop01 data]# mkdir logs
[root@hadoop01 data]# ls
hadoop  logs  word.txt  zookeeper
[root@hadoop01 data]#

准备日志存放目录和待上传文件

logs 里面两个文件夹，

log 日志文件存放的目录

toupload 待上传文件存放的目录

upload2HDFS.sh 脚本
[root@hadoop01 logs]# ls
log  toupload  upload2HDFS.sh

编辑upload2HDFS.sh

#配置java环境

export JAVA_HOME=/export/servers/jdk1.8.0_201
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:

最低0.47元/天解锁文章