Flume监听日志文件并存入Kafka中消费

最新推荐文章于 2024-10-11 18:05:32 发布

修勾勾L

最新推荐文章于 2024-10-11 18:05:32 发布

阅读量441

点赞数 1

分类专栏： Hadoop 文章标签： kafka flume 分布式

本文链接：https://blog.csdn.net/weixin_53299145/article/details/121253538

版权

Hadoop 专栏收录该内容

9 篇文章

订阅专栏

第一步

配置Flume配置文件

此配置可以去官网搜索，简单修改即可
链接：

https://flume.apache.org/releases/content/1.7.0/FlumeUserGuide.html

创建监听日志文件的配置：/usr/apps/flume-1.7.0/kafka-producer.conf

pro.sources = s1
pro.channels = c1
pro.sinks = k1
 
pro.sources.s1.type = exec
pro.sources.s1.command = tail -F /usr/apps/tmp/logs.log          
 
pro.channels.c1.type = memory
pro.channels.c1.capacity = 1000
pro.channels.c1.transactionCapacity = 100
 
pro.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
pro.sinks.k1.kafka.topic = log-test
pro.sinks.k1.kafka.bootstrap.servers = master:9092,slave1:9092,slave2:9092
pro.sinks.k1.kafka.flumeBatchSize = 20
pro.sinks.k1.kafka.producer.acks = 1
pro.sinks.k1.kafka.producer.linger.ms = 1
pro.sinks.k1.kafka.producer.compression.type = snappy
 
pro.sources.s1.channels = c1
pro.sinks.k1.channel = c1

第二步

在虚拟机上开启监听

在flume的根目录下执行以下命令


第一种写法：
 bin/flume-ng agent -c conf/ -n pro -f job/kafka-producer.conf -Dflume.root.logger=INFO,console
 
第二种写法：
 bin/flume-ng agent --conf conf/ --name pro --conf-file job/kafka-producer.conf -Dflume.root.logger=INFO,console

参数说明：
–conf/-c：表示配置文件存储在 conf/目录
–name/-n：表示给 agent 起名为 pro
–conf-file/-f：flume 本次启动读取的配置文件是在 job 文件夹下的 kafka-producer.conf文件。
-Dflume.root.logger=INFO,console ：-D 表示 flume 运行时动态修改 flume.root.logger参数属性值，
并将控制台日志打印级别设置为INFO 级别。日志级别包括:log、info、warn、error。

第三步

启动消费者

复制会话在kafka目录下开启消费者命令：
./bin/kafka-console-consumer.sh --bootstrap-server 192.168.38.144:9092 --topic log-test

Flink连接Kafka进行消费

package 用Flink消费kafka中的数据

import org.apache.flink.api.common.serialization.SimpleStringSchema
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer011

import java.util.Properties

object Flink_test {

  def main(args: Array[String]): Unit = {
    val prop = new Properties()
    //封装kafka的连接地址
    prop.setProperty("bootstrap.servers", "192.168.38.144:9092")
    //指定消费者id
    prop.setProperty("group.id", "flink")

    val env = StreamExecutionEnvironment.getExecutionEnvironment
    val stream = env.addSource(new FlinkKafkaConsumer011[String]("log-test", new SimpleStringSchema(), prop))

    stream.print()
    env.execute()
  }
}