Flume
文章平均质量分 94
ZikH~
熟悉Hadoop分布式架构,了解HDFS存储、Yarn运行以及MapReduce计算的流程。
熟悉Hive数据仓库管理工具,了解Hive Sql处理、分析数据。
熟悉Spark计算框架,了解RDD、任务提交执行机制、Spark常用算子以及Spark Core、 Spark Streaming、 Spark SQL 进行数据分析和计算。
熟悉Flink分布式大数据处理引擎,了解Execute方法、Flink算子操作、Flink算子操作。
熟悉Kafka分布式的发布—订阅消息系统,了解Kafka的topic操作、ISR列表、offset、ack机制
了解Hbase非关系型数据库,
展开
-
【Flume】Interceptor拦截器 (三)
实际过程中,可以使用Ganglia监控Flume的数据流。Ganglia是Berkeley发起的一个开源的集群监控项目,可以检测数以千计的节点的性能Ganglia包含三个模块gmond(Ganglia Monitoring Daemon):轻量级的监控服务,需要监控哪一个节点的性能,就在这个节点上安装gmond服务,可以监控当前节点(系统)的各种指标数据:CPU、内存、磁盘、网络等信息。原创 2024-05-07 15:38:45 · 1097 阅读 · 0 评论 -
【Flume】Sink、Channel(二)
自定义Sink的时候,需要定义一个类继承,实现Sink接口,最好还要实现接口来获取配置。注意,自定义Sink的过程中,需要关注事务问题打成jar包放到lib目录下rz编辑格式文件在文件中添加# 配置自定义Sink# 类型必须是类的全路径名# 存储路径启动Flume发送HTTP请求Selector并不是一个单独的组件,而是附属于Source的子组件Selector支持三种模式:replicating:复制/复用模式。原创 2024-05-06 17:03:25 · 938 阅读 · 0 评论 -
【Flume】简介、安装和入门案例(一)
Flume本身是由Cloudera公司开发的后来贡献给了Apache的一套针对日志数据进行收集(collecting)、汇聚(aggregating)和传输(moving)的机制Flume本身提供了简单且灵活的结构来完成日志数据的传输Flume-ogFlume-ng。原创 2024-04-23 09:00:35 · 899 阅读 · 0 评论