Kafka Flink ES 集成

最新推荐文章于 2024-09-21 06:41:10 发布

desYang

最新推荐文章于 2024-09-21 06:41:10 发布

阅读量4.3k

点赞数 4

文章标签：大数据 Flink ElasticSearch Kafka

本文链接：https://blog.csdn.net/ygyblue2/article/details/85096860

版权

本文介绍了如何构建一个Kafka、Flink和ElasticSearch集成的业务框架，用于数据ETL和存储。数据源通过Flume等采集工具进入Kafka，接着由Flink处理并流向ElasticSearch。集群配置包括Kafka的3个节点，Flink 1.6.0本地启动，以及ElasticSearch部署在hadoop102上。数据以JSON格式流转，关键依赖包括匹配ES版本的配置。文章提供了从配置到验证数据写入ES的完整步骤。

摘要由CSDN通过智能技术生成

今天搭建简单的业务框架，可以提供ETL基础和对源数据的存储

对于大数据的数据流转结构在企业应用中大同小异

通常会在数据源接入数据采集框架（Flume，Canal，Sqoop，阿里的DataX等）和监控系统（Ganglia，Nagios）

数据被采集后进入中间件，目前最活跃的非Kafka莫属

中间件下游会对接流式框架，或者企业数据分析系统

其实搜索嘛我也知道主要就是看怎么搭，至于功能作用在接到任务需求的第一时间也没法仔细的思考

介绍：

技术架构：Kafka -- Flink -- ElasticSearch

集群规模：Kafka -- hadoop102:9092、hadoop103:9092、hadoop104:9092

Flink -- 1.6.0 Idea本地启动

ElasticSearch -- hadoop102:9200

数据介绍：JSON格式

重要依赖（绝对不要找错，要和安装的es吻合）：

 <dependency>
        <groupId>org.apache.flink</groupId>
        <artifactId>flink-connector-elasticsearch5_2.11</artifactId>
        <version>1.5.3</version>
 </dependency>

配置文件名：kafka.properties 简单配一下kafka，zk就可以

ES sink端


import com.alibaba.fastjson.JSONObject;
import org.apache.flink.api.common.functions.RuntimeContext;
import org.apache.flink.streaming.connectors.elasticsearch.ElasticsearchSinkFunction;
import org.apache.flink.streaming.connectors.elasticsearch.RequestIndexer;
import org.apache.flink.streaming.connectors.elasticsearch5.Elasticsea