impala&hive大数据平台数据血缘与数据地图(二)-实时采集impala血缘日志推送到kafka

本文为博主原创文章，转载请注明出处http://blog.csdn.net/wsdc0521

本文链接：https://blog.csdn.net/wsdc0521/article/details/105404576

本文介绍如何使用Filebeat轻量级工具实时采集Impala血缘日志，并推送至Kafka，实现大数据环境下的日志实时监控与处理流程。涉及Filebeat配置、Kafka消费者启动及Impala SQL血缘日志监控全过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

impala数据血缘与数据地图系列：

-----------------------------------------实时采集impala血缘日志推送到kafka-----------------------------------------------------

使用filebeat采集impala的血缘日志并推送到kafka

采用filebeat的主要原因是因为轻量，对impala的血缘日志采集不需要进行数据过滤和格式转换，因此不需要使用flume或logstash这样占用资源较大的工具。

filebeat的安装及使用请参考官方手册:

https://www.elastic.co/guide/en/beats/filebeat/current/filebeat-overview.html

参数配置：

vim conf/filebeat_impala_lineage.yml

#=========================== Filebeat inputs =============================

filebeat.inputs:

- type: log

  # Change to true to enable this input configuration.
  enabled: true

  # Paths that should be crawled and fetched. Glob based paths.
  paths:
    #这里指定impala血缘目录，会读取该目录下所有日志
    - /var/log/impalad/lineage/*
#============================= Filebeat modules ===============================

filebeat.config.modules:
  # Glob pattern for configuration loading
  path: ${path.config}/modules.d/*.yml

  # Set to true to enable config reloading
  reload.enabled: false

  # Period on which files under path should be checked for changes
  #reload.period: 10s

#===========kafka output===============
output.kafka:
    #指定kafka的节点和topic
  hosts: ["uatka01:9092","uatka02:9092","uatka03:9092"]

  topic: wyk_filebeat_impala_lineage_new_demo

  required_acks: 1
#output.console:
#  pretty: true

DEMO：

启动filebeat，注意每个机器上只能启动一个filebeat进程，因此上面的读取日志不要指定文件名。

$FILEBEAT_HOME/filebeat --c $FILEBEAT_HOME/conf/filebeat_impala_lineage.yml -e

启动kafka consumer:

./kafka-console-consumer.sh --bootstrap-server uatka01:9092,uatka02:9092,uatka03:9092 --topic wyk_filebeat_impala_lineage_new_demo --zookeeper uatka01:2181,uatka02:2181,uatka03:2181

启动impala-shell:

impala-shell -i uathd03

1. 在impala-shell内建一个视图:vw_lineage_test11