来源:蚂蚁金服 整理:Daniel
转载自:BAT架构(ID:kbcs2019)
蚂蚁金服的同学,虽然暂时听不到财富自由的声音,但是技术底座夯实,还是非常牛逼的。钱财嘛都是浮云,留着青山在,早晚会挣回来的。
这是之前蚂蚁金服技术专家分享的智能中台建设实践,整理出来供大家参考,ppt来自网络,如有侵权请联系删除。
01
AI在蚂蚁金服的应用场景
资料来源:蚂蚁金服
AI在蚂蚁金服的应用场景有:
智能风控。基于深度学习的风险识别与防控。
智能理财。基于金融大数据提供智能、理财策略分析和决策建议。
智能信贷。基于数据隐私加密共享、学习的联合放贷。
智能营销。个性化智能营销决策、提升业务运营效率。
智能保险。智能保险定价、定损、理赔,线上自动化流程管理。
智能客服与助理。一站式金融场景机器人、智能业务决策和执行助理。
02
蚂蚁AI能力大图
资料来源:蚂蚁金服
蚂蚁AI能力大图分成两部分:
场景&行业:智能风控、智能客服助理、智能营销、智能保险、智能信贷、智能理财。
金融大脑:金融知识图谱&NLP、机器人平台、金融信息服务、生物识别、金融视觉平台、金融算法(AutoML ,图推理,隐私保护共享学习,运筹优化,无监督学习,在线学习,强化学习,模型可解释)。
03
理赔宝背后的智能
资料来源:蚂蚁金服
先来了解,理赔业务流程:用户上传->图像识别-> 实体抽取-> 实体匹配-> 系统智能核赔。
理赔宝对比传统流程核赔效率提升5倍以上,主要包含三大核心平台:
感知(金融视觉平台Computer vision)
• 图像分类:区别病历、发票、证明等
• OCR:支持文字、图章识别
• 反欺诈:识别PS图片等
• 数十个图像模型多链路融合决策
NLP&知识图谱(金融知识图谱平台 Financial knowledge graph)
• 健康知识图谱:医院、疾病、科室、手术、保险产品等实体关联
• 亿级节点和边在线实时融合推理
决策算法策略层
• Algorithmic
• decision
04
智能中台的简略框架
资料来源:蚂蚁金服
智能中台从角色上分成:算法研发、数据研发、工程研发。
从架构上分成:模型、研发平台、底层技术。
05
为什么数据底座很重要
资料来源:蚂蚁金服
为什么数据底座很重要?
一、数据处理贯穿模型迭代的始终;
二、 数据和特征决定了机器学习的上限;
三、 数据安全是金融行业生命线。
06
金融智能数据底座的挑战
资料来源:蚂蚁金服
金融智能数据底座的挑战,主要有三方面:
效率
• 存储分散,多次拷贝;滥用批处理;标注效率低
质量
• 标注质量; 数据快速refine
安全
• 标注安全;训练安全
07
数据流转:打通数据闭环,提升流转效率
资料来源:蚂蚁金服
数据闭环主要环节包括:数据采集、数据预处理、数据标注、数据转换、模型训练、业务场景。
治理的准则是:统一存储、统一格式、统一分析、统一编码。
08
数据流转:基于one ID的数据复用
资料来源:蚂蚁金服
基于one ID的数据复用,过程包括:原始数据、标注数据、样本数据、模型数据。
09
智能标注:模型市场赋能标注
资料来源:蚂蚁金服
智能标接入移动、PC各端,把样本输入算法平台,通过自训练模型、通用模型进行标注,包括视频、图像、文本等媒体物料。
10
数据选择:通过主动学习节省90%的标注量
资料来源:蚂蚁金服
通过主动学习节省90%的标注量。
• 主动学习(Active Learning )是一个迭代过程,不断选择对当前模型效果提升最有效的样本,优先进行标注。
• 分类宝case:约10%的样本达到所有数据的训练效果。
• 能力集成到数据底座,包括基于信息熵的通用选择和算法自定义选择。
11
数据增强:解决样本少或者不均衡的问题
资料来源:蚂蚁金服
1. 复制、翻转、剪切、缩放
2. 高斯噪声、高斯模糊…
3. SMOTE、GAN
例如:Image Smote在具体业务场景上带来3-5%效果提升。
12
智能辅标工具
资料来源:蚂蚁金服
• AntLable 支持视频、图像、语音、文字、地图等内容标注;
• 很多业务场景带来数倍的效率提升;
• 大部分实现基于前端算法,计划开源。
13
智能辅标:倾斜校正、自动贴合+OCR
资料来源:蚂蚁金服
由于实际场景中,拍照都有角度,会造成倾斜、重合等,智能辅标:倾斜校正、自动贴合+OCR,很好的解决了这些问题。
14
智能辅标:图像自动分割
资料来源:蚂蚁金服
识别图像中的目标部分,如文字、商标等,进行自动裁剪分割。
15
智能辅标:视频人物跟踪
资料来源:蚂蚁金服
对视频中的特定人物进行目标跟踪。
16
智能辅标:视频图像对齐
资料来源:蚂蚁金服
视频图像的边界对齐。
17
标注质量:基于数据指标的流程管控体系
资料来源:蚂蚁金服
对于巨量的标注工作,需要有一个流程管控体系。如:标注->检查-->驳回/验收-->训练。结合工具、数据、引擎。
18
标注质量报表
资料来源:蚂蚁金服
对于标准质量,有可视化的报表展示,不断提高标注质量。
19
样本分析
资料来源:蚂蚁金服
对样本进行深入分析。
20
模型效果报表
资料来源:蚂蚁金服
对模型效果报表展示。
21
安全要求和解决思路
资料来源:蚂蚁金服
安全要求包括安全存储、拒绝查看。
通过文件管控,如加密、分割、脱敏、水印等方法进行安全管控。
通过访问控制,如不落库、鉴权、频次、时效等对访问进行管理。
22
安全标注:不落数据标后即焚
资料来源:蚂蚁金服
安全标注主要思路:数据不落库,标注后源数据销毁。
23
安全标注:分割标注
资料来源:蚂蚁金服
安全标注包括:
• 语音、文本、图片。
• 最小化分割。
• 数据脱敏sdk。
24
安全训练
资料来源:蚂蚁金服
安全训练是通过加密标注数据、数据分割、加载到内存、解码合成、训练等流程。
25
数据底座总体功能框架
资料来源:蚂蚁金服
数据底座总体框架包括:平台、产品封装、采集接入、标注、加工数据、能力组件,如上图所示。
蚂蚁金服的金融智能中台,就好比企业的大脑,通过对业务数据抽取、加工、标注、输出,数据反哺业务,形成了数据业务双中台,驱动整个金融科技的发展。
研究一家科技企业,就看它的核心系统建设思想,梧桐一叶而天下知秋,现在你知道蚂蚁金服,为何估值万亿了吧。
公众号作者介绍:我是Daniel,互联网独角兽公司CTO,这是我的公众号,专门研究BAT大厂技术架构、行业动态,希望给你提供有价值的观点。
--END--
关注“BAT架构”,回复:“中台”,即可获取50页阿里中台ppt
一个专门研究BAT大厂技术架构的公号!