故事背景
企业现状
2019年年初,我接到了一个神秘电话,电话那头竟然准确的说出了我的昵称:上海小胖。
我想这事情不简单,就回了句:您好,我是小胖,请问您是?
“我就是刚刚加了你微信的 xxx 啊”
哦……他只是把我的微信昵称报出来了……
随着深入沟通,了解到对方是某央企保密单位的大数据部门技术负责人,因为目前整个集团在进行数字化转型。在决策过程中,遇到了几个阻力。
首先,大部分部门和科室的数据基础还很薄弱,存在数据标准混乱、 数据质量层次不齐、各条块之间数据孤岛化严重等现象,阻碍了数据的共享应用。
其次,受限于数据规模和数据源种类的丰富程度,多数企业的数据应用刚刚起步,主要集中在精准营销,舆情感知和风险控制等有限场景,应用深度不够,应用空间亟待开拓。
再次,由于数据的价值很难评估,企业难以对数据的成本以及其对业务的贡献进行评估,从而难以像运营有形资产一样管理数据资产。
而这位技术负责人本着认真、负责、专研的精神,死磕大数据领域,试图在市面上找到一款能够满足他需求的产品,帮助他解决数据痛点。
经过沟通,了解到目前的企业数据现状是:
- 数据散落在各部门科室,8大部门共50+科室
- 数据量非常大,高峰期每小时可产生100GB数据,每天存量数据 1TB
- 数据类型丰富,包括:
- 关系型数据库:Oracle,MySQL,PostgreSQL,GBase,GauseDB等
- 非关系型数据库:MongoDB
- 结构化文件:XML,Excel,CSV,TXT
- 非结构化文件:音频,视频,pdf
- 每个月都会有 5 个新项目,而每次对接新项目都需要花费 1-3个月时间在数据对接上
- 项目周期长,而大多数时间都在数据冗余、清洗、过滤上
- 多副本数据带来的数据维护成本也在不断增加&#