Flume
文章平均质量分 57
原来是大华啊~
菜就多练,投不进就多投。
展开
-
记录一下flume中因为taildir_position.json因位置不对导致数据无法从kafka被采到hdfs上的问题
最后发现是我的taildir_position.json之前在/opt/module/flume/jobs/collectionProject路径下(4.JSONObject.class(flume/lib中也已经导入),我需要用flume将kafka上的数据采集到hdfs上,发现数据怎么到不了hdfs。),导致flume读不到这个文件的位置,所以无法从kafka将数据读到hdfs。MySQL数据库的增量数据已从kafka成功同步到hdfs~2.我的flume配置文档(没问题),3.时间拦截器(没问题),原创 2024-04-19 21:47:44 · 364 阅读 · 0 评论 -
记录一下因为没等配置文件上传完就跑lg.sh导致f2.sh没起作用的原因
再启动:[atguigu@hadoop104 flume]$ bin/flume-ng agent -n a1 -c conf/ -f jobs/collectionProject/kafka_to_hdfs_log.conf。阶段2:将kafka上的数据采集到hdfs上,因为我是用application.yml造的数据,每次需要改这个文件中的mock.data这个参数,但我每次改完后。阶段1:将日志文件的数据通过flume采集到kafka。我的这一步正常,kafka上有数据,即f1.sh是正常的。原创 2024-04-19 20:26:54 · 108 阅读 · 0 评论 -
记录flume运行时报NullPointerException异常
这个报错的原因是里面有JSONObject这个类找不到,解决办法有两个,要么把对应的这个类单独上传到flume的lib目录下,要么重新打包,把带dependencies的jar传到lib目录下。我要起一个将kafka上的topic_log主题中的数据上传到hdfs上的flume进程。这个报错的原因是这两个文件夹里的数据损坏了,删掉这两个文件里的内容。原创 2024-04-15 20:51:40 · 1229 阅读 · 0 评论 -
Flume配置案例@Source:Kafka,Channel:File,Sink:HDFS
origin_data/gmall/log/topic_log/%Y-%m-%d 这个是要存的HDFS的路径,可以提前不存在。$Builder 这是里面的内部类。# 消费的kafka的主题是topic_log。# 下面写的这个拦截器是要解决零点飘移问题。创建flume配置文件。原创 2024-04-14 16:40:02 · 495 阅读 · 0 评论 -
Flume配置案例@Source:端口,Channel:内存,Sink:控制台
在nc-flume-log.conf文件中添加如下内容。原创 2024-04-13 14:41:44 · 436 阅读 · 0 评论 -
Flume配置案例@Source:文件,Channel+Sink:Kafka
【Source和Channel的选择】 1)TailDirSource TailDirSource相比ExecSource、SpoolingDirectorySource的优势。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。ExecSource可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。#监控log文件夹下所有以app开头的文件,但是注意,#这个文件如果提前不存在是可以的,但是注意,注释在flume里不能跟在这后面。原创 2024-04-13 14:35:19 · 484 阅读 · 0 评论