
Flume
Flume
「miraitowa」
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flume面试题
1、Flume组成 1.1 taildir source 断点续传、多目录 1.哪个flume版本产生的? Apache1.7、CDH1.6 2.没有断点续传功能时怎么做的? 自定义 3.taildir挂了怎么办? 不会丢数:断点续传 4.怎么处理重复数据? 不处理:生产环境通常不处理,因为会影响传输效率 处理:自身(在taildirsource里面增加自定义事务);找兄弟(下一级处理(hive dwd sparkstreaming flink布隆)、去重手段(groupby、开创取窗口第一条、redis)原创 2020-11-03 17:20:34 · 350 阅读 · 0 评论 -
Flume对接Kafka
配置Flume(flume-kafka.conf) # define a1.sources = r1 a1.sinks = k1 a1.channels = c1 # source a1.sources.r1.type = exec a1.sources.r1.command = tail -F -c +0 /opt/module/datas/flume.log a1.sources.r1.shell = /bin/bash -c # sink a1.sinks.k1.type = org.apac..原创 2020-11-04 11:25:49 · 212 阅读 · 0 评论 -
Flume知识点总结
一、Flume概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume基于流式架构,灵活简单。 采集工具,将大数据分散的数据源(数据库,日志)统一采集到一个地方(hdfs); Flume最主要的作用是:实时读取服务器本地磁盘的数据,将数据写入到HDFS。 1.2 Flume基础架构 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送至目的; Agent主要有3个部分组成:Source、Channel、原创 2020-08-01 08:51:04 · 384 阅读 · 0 评论