开发者解读：为什么蚂蚁要用融合计算这种新计算模式？

支付宝技术团队

于 2019-12-05 09:03:29 发布

阅读量1.8k

点赞数

分类专栏：蚂蚁技术文章标签：金融科技金融智能

本文链接：https://blog.csdn.net/weixin_44326589/article/details/103398023

版权

导读：如今大部分人工智能应用是基于监督学习范式开发的，即模型在线下进行训练，然后部署到服务器上进行线上预测，这样的开发方式在实时响应上存在较大的局限。随着计算和 AI 体系逐步成熟，我们希望机器学习应用能更多地在动态环境下运行、实时响应环境中的变化，这推动了机器学习从传统离线学习逐渐向在线学习演进。相比于传统的离线机器学习，在线学习可以带来更快的模型迭代速度，让模型预测效果更贴真实情况，对于线上的波动更加敏锐。

最近两年，国内各一线互联网厂商分别推出自己的在线学习技术体系及相关架构。蚂蚁金服从 2018 年 7 月开始，基于最新的 Ray 分布式引擎自研了金融级的在线学习系统，与传统在线学习框架相比，在端到端延迟、稳定性、研发效率等方面都有不同程度的提高。

Ray 是伯克利大学 AMPLab 在 2017 年 12 月开源的高性能分布式计算引擎，推出至今不足两年，在计算框架领域还是一个十足的“新生儿”，虽然业内关注度颇高，但真正将 Ray 付诸应用的企业并不多，蚂蚁金服或许是国内第一个“吃螃蟹”的公司。为什么 Ray 能够得到蚂蚁金服的青睐？它与红透半边天的开源计算引擎 Spark、Flink 相比有什么独特的优势？在 Ray 的使用过程中可能会遇到哪些问题？蚂蚁金服的踩坑经验有何可借鉴之处？带着这些问题，InfoQ 在近期召开的 QCon 上海 2019 大会现场采访了蚂蚁金服资深技术专家周家英（徒离），以下为采访问答实录。

InfoQ：能否请您总体介绍一下蚂蚁金服大数据技术架构的演进历程，包括经历了哪几个阶段、以及每个阶段你们所做的重点工作等。

周家英： 蚂蚁金服的大数据技术架构早期也是从离线计算阶段发展起来的，这一阶段大概是在 2011 年到 2013 年，当时还是以业界传统的离线计算为主，也就是 Hadoop。2013 年之后，随着分布式实时计算系统 Storm 推出，我们开始逐步将业务转向实时计算。从 2016 年开始，团队经过了一次比较大的转型，希望打造一套迎接下一代大数据计算的技术体系。一开始我们先尝试将计算引擎剥离出来，让业务与计算平台或中台体系直接对接，而不是对接具体的某个引擎。在这个阶段，我们经历了如特征中台、事件中台或者决策中台这些概念。

从这往后，大数据引擎、整个大数据体系都发展得非常快。我们不想继续像赶潮流一样，围绕一两个引擎或者一两种比较流行的计算模式去建立生态，我们认为应该有一套稳定的大数据计算架构设计思路，能够覆盖所有数据层面的问题。我们希望能逐渐沉淀出自己的一套技术体系，这套体系可以同时兼容和支持业界所有比较活跃的计算引擎，所以我们从 2017 年开始提出所谓“开放架构”的概念，从针对不同计算引擎单独建设，转变成建设一套开放的计算架构。

首先，它是一个致力于解决大数据计算问题的整体架构，在这个架构中会包含不同的计算