flume
文章平均质量分 54
flume
宝哥大数据
大数据、机器学习、深度学习
展开
-
Flume入门及进阶教程
一、Flume介绍二、Flume入门三、Flume的高级特性原创 2020-08-08 11:09:26 · 824 阅读 · 0 评论 -
flume 自定义Sink之kafkaSink
在flume1.5.2中没有kafkasink,需要自定义KafkaSink在fluem-1.6.0中提供了kafkasinkkafkaSink就是将Channel中的输出通过sink写到kafka,所有kafka相当与一个生产者的功能1.1、官网的开发者文档Developer Guide问题 1、Cannot Append to Appender! App...原创 2018-03-08 00:05:48 · 5914 阅读 · 1 评论 -
flume Source志SpoolDir
二、flume监控某个目录,将数据发送kafka2.1、flume source 使用SpoolDir 监控一个目录下的文件内容SpoolDir监控目录下文件, 处理后的文件修改文件名 问题1: 如果上传来的文件,还没有上传完,spoolDir扫描到改文件,将会报错所以此处我将监控前一个小时目录, #!/bin/bash#date -d "-10 min" +%...原创 2018-03-07 23:57:42 · 7715 阅读 · 4 评论 -
kafka整合flume
一、kafka和flume的安装 apache-flume-1.5.2-bin kafka_2.10-0.10.2.1 kafka安装部署 flume学习01—安装 二、flume监控某个目录,将数据发送kafka2.1、flume source 使用SpoolDir 监控一个目录下的文件内容SpoolDir监控目录下文件, 处理后的文件修改文件名 问题...原创 2018-03-07 23:43:21 · 474 阅读 · 0 评论 -
flume安装配置
flume原创 2016-11-20 18:43:49 · 4491 阅读 · 0 评论 -
flume学习05---Exec Source
Exec SourceExec Source在启动时运行给定的Unix命令,并期望进程在标准输出上产生连续的数据(除非属性logStdErr设置为true,否则stderr将被丢弃)。 如果进程由于任何原因退出,source也会退出,并且不会生成更多数据。 这意味着诸如cat [named pipe]或tail -F [file]之类的配置将产生期望的结果,其中日期可能不会 - 前两个命令产生数据流原创 2017-03-19 23:18:38 · 6496 阅读 · 2 评论 -
flume学习05---Spooling Directory Source
Spooling Directory Source此source允许您通过将要提取的文件放入磁盘上的“spooling”目录来提取数据。此源将监视指定目录的新文件,并在新文件显示时解析新文件中的event。event解析逻辑是可插入的。在给定文件被完全读入channel之后,它被重命名以指示完成(或可选地被删除)。与Exec源 Source不同,此source是可靠的,并且不会丢失数据,即使Flum原创 2017-03-20 07:13:50 · 1664 阅读 · 0 评论 -
flume学习05---Thrift Source
Thrift Source侦听Thrift端口并从外部Thrift客户端流接收事件。 当与另一(前一跳)Flume agent上的内置ThriftSink配对时,它可以创建分层集合拓扑。 Thrift源可以配置为通过启用kerberos身份验证在安全模式下启动。 agent-principal和agent-keytab是Thrift源用来向Kerberos KDC进行身份验证的属性。 必需属性以粗原创 2017-03-20 01:35:49 · 2853 阅读 · 0 评论 -
flume学习05---Kafka Source
Kafka SourceKafka Source是一个从Kafka的 Topic中读取消息的Apache Kafka消费者。 如果您有多个Kafka source运行,您可以使用相同的Consumer Group配置它们,因此每个将读取topic中一组唯一的分区。 主要的几个属性type: source的类型,必须使用org.apache.flume.source.kafka.Kafk原创 2017-03-21 17:36:07 · 4824 阅读 · 0 评论 -
flume学习05---Taildir Source
Taildir SourceNote This source is provided as a preview feature. It does not work on Windows.监视指定的一些文件, 将近实时的tail 这些文件获取这些文件的新追加的行, 如果这些行正在写入的话, 它会等待写入操作完成。 这个source是可靠的 and will not miss data even w原创 2017-03-21 15:52:22 · 1514 阅读 · 0 评论 -
flume+kafka+storm整合01
具体实现1、实现Spout, 因为Storm源数据是从kafka中获取, 所以使用storm提供的KafkaSpout //由于Spout是从kafka中获取数据, Storm提供了KafkaSpout //配置kafkaSpout //kafka的topic, 是为了方便从哪儿拿数据 String topic = "testFlum原创 2017-03-20 18:36:15 · 1009 阅读 · 0 评论 -
flume学习09---Event Deserializers
Event DeserializersLINEAVROBlobDeserialzer原创 2017-03-20 08:15:24 · 1832 阅读 · 0 评论 -
flume+kafka+storm整合00
一、安装flume,kafka, storm 的安装在下面三篇文章: flume:1.6.0 kafka:注意这里最好下载scala2.10版本的kafka,因为scala2.10版本的兼容性比较好和2.11版本差别太大 flume学习01—安装 kafka安装部署 storm安装部署二、各个部分调试2.1、flumeflume Source之SpoolD...原创 2017-03-19 11:40:46 · 1550 阅读 · 1 评论 -
flume学习05---Avro Source
Avro Source原创 2017-03-18 11:20:41 · 3565 阅读 · 0 评论 -
flume学习02---日志记录调试
一、记录原始信息 在许多生产环境中,记录流过摄取流水线的原始数据流是不期望的行为,因为这可能导致泄露敏感数据或安全相关配置,例如到Flume日志文件的密钥。 默认情况下,Flume不会记录这样的信息。 另一方面,如果数据流水线断开,Flume将尝试提供调试问题的线索。 调试事件管道问题方法方法:设置一个额外的Memory Channel连接到Logger Sink,它将所有事件数据输出到Flu原创 2017-03-18 10:52:37 · 2944 阅读 · 0 评论 -
flume学习01---安装
配置测试官网上设置的单点测试:# example.conf: A single-node Flume configuration# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourcea1.sources.r1.type = ne原创 2017-03-15 22:56:51 · 683 阅读 · 0 评论 -
flume学习00---Data flow model
一·、flume的数据流模型Flume Event被定义为具有有字节的字节载荷和可选的字符串属性结合的数据流单元,flume agent 是承载事件从外部源流向下一个目的地的组件的JVM进程。下图为Flume agent流程图 Flume source 消费由外部源(如Web Server)传递给他的事件。 外部源以一种格式化的Event发送给Flume,能够被目标 Flume sourc原创 2017-03-18 09:39:42 · 717 阅读 · 0 评论