大数据开发面试题【Flume篇】

79、介绍下Flume以及架构

是一个开源的日志系统,是一个分布式。可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据
Agent:是一个jvm进程,他以时间的形式将数据从源头送至目的地、Agent 主要有 3 个部分组成,Source、Channel、Sink。
Source:负责接收数据到flume的agent的组件,可以处理avro、thrift、exec、jms…一系列日志类型
Sink:sink不断轮询channel中的事件并且批量地移除他们,写入到存储系统或者另一个flume agent
channel:是位于source和sink之间的缓冲区,有基于文件的fliechannel和基于内存的memorychannel(一个安全但是慢,一个快但是不安全)
Event:是flume的基本传输单元,以event的形式将数据从源头送至目的地,event由header和body组成

80、Flume事务机制

flume的事务机制类似数据库的事务机制:要么都成功,要么都失败
一个事务负责从source到channel,另一个事务负责从channel到sink
在这里插入图片描述

81、Flume采集数据会丢失吗?

flume是不可能丢失数据的,内部由完善的事务机制,两个环节的事务性保证
flume不会丢失数据,但是可能造成数据的重复,
flume作为高容量并行采集系统次啊用的是at-least-once,造成每个source产生的事件至少到达sink一次,又可能会造成重复

82、flume的拦截器

是设置在source和channel之间,source接收到的事件event,拦截器可以进行转换或者删除

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值