今天搭建简单的业务框架,可以提供ETL基础和对源数据的存储
对于大数据的数据流转结构在企业应用中大同小异
通常会在数据源接入数据采集框架(Flume,Canal,Sqoop,阿里的DataX等)和监控系统(Ganglia,Nagios)
数据被采集后进入中间件,目前最活跃的非Kafka莫属
中间件下游会对接流式框架,或者企业数据分析系统
其实搜索嘛我也知道主要就是看怎么搭,至于功能作用在接到任务需求的第一时间也没法仔细的思考
介绍:
技术架构:Kafka -- Flink -- ElasticSearch
集群规模:Kafka -- hadoop102:9092、hadoop103:9092、hadoop104:9092
Flink -- 1.6.0 Idea本地启动
ElasticSearch -- hadoop102:9200
数据介绍:JSON格式
重要依赖(绝对不要找错,要和安装的es吻合):
<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-connector-elasticsearch5_2.11</artifactId>
<version>1.5.3</version>
</dependency>
配置文件名:kafka.properties 简单配一下kafka,zk就可以
ES sink端
import com.alibaba.fastjson.JSONObject;
import org.apache.flink.api.common.functions.RuntimeContext;
import org.apache.flink.streaming.connectors.elasticsearch.ElasticsearchSinkFunction;
import org.apache.flink.streaming.connectors.elasticsearch.RequestIndexer;
import org.apache.flink.streaming.connectors.elasticsearch5.Elasticsea