对于京东大数据平台来说,数据产品并不是一个新鲜事物,2011年自建数据仓库上线的同时,第一款数据产品调度平台也一同上线并正式投入使用。
调度平台
订单交易,仓储物流等众多京东系统都会产生数据,仅日志内容每天的大小约为1TB,大量的数据如何统一汇总到数据仓库来呢?这就需要调度产品来实现数据生产。京东调度平台发展至今已经是3.0版本,每一次的更新迭代都凝聚着京东大数据平台开发工程师许许多多个日夜的心血,也是我们技术突破与功能升级的具体体现。
调度平台1.0版本架构
1.0版本于2011年8月上线,一台服务器作为中心节点指挥调度,另外3台服务器负责相关数据作业,任务之间通过后置变量的方式设定前后依赖关系,调度机制便运行起来了。数据仓库建立之初的任务并不太多,数据量没有太过庞大,数据ETL过程所需计算资源也都完全应付得来。
但随着仓库收纳数据的增加,数据生产任务越来越多,任务之间的依赖关系也变得越来越复杂。每个BI工程师需要根据自己的生产任务设定后置变量的值以建立任务依赖关系,任务多了之后不但设置起来耗时费力且不易管理,当一个人的任务需要重跑时后置变量的修改可能会影响到别人的任务。
2.0版本上线了新的调度引擎,彻底解决了这个问题。新任务上线只需要选择依赖的父任务即可建立关系,且流程独立,不会因同一个任务被多个依赖而造成干扰。除此之外,任务可视化配置与浏览功能也在这个版本上线,任务运行状