在大数据领域工作了5年了,大数据应用面领着诸多问题,其中最主要的问题之一是数据源的多样性,要将各种数据源的数据统一抽取到hadoop平台,面临这复杂的代码编写或者多种工具部署测试运维,无形中增加了数据使用的门槛。
为了降低数据使用的门槛,公司急需一个数据管理平台,能够实现各种数据源的配置化开发,数据监控,元数据管理以及数据链路跟踪问题。本人打算基于kafka 和kafka connect构建一个大数据dmp平台,以实现多数据源配置化接入hadoop平台以及数据监控,元数据管理等功能。之前分析了kafka源码,今天开始,我们分析kafka connect源码,下一步我们希望能够通过kafka connect构建一个配置化的dmp平台,最后一步将添加数据监控,元数据管理以及数据链路跟踪功能。