Flume
文章平均质量分 76
自学大数据的菜鸡
这个作者很懒,什么都没留下…
展开
-
Flume的TairDir Source重读问题
问题描述:在数仓项目中,使用Flume的TairDir Source监控日志文件,当文件更名之后会重新读取该文件造成重复原因分析:因为Flume的TairDir Souce是通过inode和file来唯一确定一个文件的,当文件的名称改变之后,就会重新读取这个文件,造成读取数据的重复。解决方案:方案一:使用不更名打印日志框架(logback),每天会新生成一个日志文件,文件后面会加上当天的日期信息,所以不会重复,例如file.log.2022-04-07…方案二:修改源码,让TairDi原创 2022-04-07 21:42:53 · 625 阅读 · 0 评论 -
2.3离线数仓—增量表同步实现
业务数据采集模块—增量表数据同步实现前言一、增量表数据同步1.增量表数据通道二、MySQL—Maxwell—Kafka的实现1.Maxwell配置2.Maxwell—Kafka通道测试三、Kafka—Flume—HDFS实现1.Flume配置选取2.Flume配置关键点3.Flume配置具体实现4.通道测试5.说明四、优化总结1.增量表同步Flume启停脚本2.增量表首日同步3.增量表同步总结前言在确定了全量表使用DataX进行同步,增量表使用Maxwell进行同步,且学习了Maxwell相关使用方法之原创 2022-02-17 15:55:28 · 888 阅读 · 0 评论 -
Flume常用Channel
Flume常用Channel一、pandas是什么?二、使用步骤1.引入库2.读入数据总结提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimp原创 2022-02-15 10:07:10 · 999 阅读 · 0 评论