个人观点:如今三家 Hadoop 厂商衰落,很多人在疑惑云大数据会是颠覆者吗?其实云平台的出现确实对本地大数据服务造成了一定影响,但本地大数据厂商也在积极寻求转型和突破,云平台可能是和很好的想法,但是云上的资源调度会使得spark、yarn这种组件水土不服,所以就hadoop体系来说,on prem这种模式未来很长一段时间还是不可能被替换掉的。这三家Hadoop厂商的衰落并不代表整个生态存在问题,更多是这三家厂商商业模式的问题。希望文章能让大家对数据方向有更多的了解,以后形成自己的一些见解。
决定大数据搭建场所的重要因素是什么?
如今,企业大数据搭建地可以在本地、公有云和私有云之间灵活选择,而这一决定的关键因素是数据安全、数据体量和业务预判。
随着云计算的逐渐成熟,很多大公司都开始创建高效、灵活的云使用环境,这些环境被部署在服务器、存储和网络资源池中,这类方案通常更具成本效益,可以提高大数据技术和高级分析的投资回报率。
当然,云计算不仅适用于类似 Facebook、Uber 这类的互联网公司,同样适用于传统企业。在此之前,企业内部团队在协作共享、大规模数据传输以及敏捷开发层面均存在不同程度的困难。如果将大数据服务搭建在云端,企业将不再需要专门的研发人员来负责基础分析,还可以更加积极主动地访问、分析和处理最新数据,甚至直接构建可视化分析。
过去几年,云平台大数据服务越来越成熟,单就这一项,主流云厂商可提供的服务列表就达到数十种,本地大数据服务的声音似乎越来越弱,这在 Cloudera 与 Hortonworks 合并之后尤为明显。实际上,云平台大数据服务和本地大数据服务各有其生存空间和适用场景,那么,这场争端的最终决定因素应该是什么?传统企业在选择大数据服务时主要会考虑哪些因素?本地大数据服务的演进方向会是什么样的呢?
InfoQ 将就上述问题展开系列探讨,追踪采访数位行业内云计算和大数据相关方向技术专家,从他们的观点中获取答案。本期采访嘉宾——百分点首席架构师黄伟。
大数据搭建地争端
大数据服务的搭建地到底是选择云端还是本地,抑或兼而有之?这个讨论一直都存在。对此,笔者也曾与某互联网云计算厂商的技术专家进行过沟通,他在谈及此事时表示,因为是技术出身,从来不敢说百分百这种事情,技术的演进趋势总是在不断调整,从端到云再到边缘计算,一定会朝着运算更高效、客户体验更优质的方向发展,最终要看整个计算链路上每个要素的技术发展及成本变化。
2009 年,百分点开始上线个性化推荐业务,自行搭建后端本地大数据平台为客户提供 SaaS 服务;2014 年,百分点基于早期积累的平台技术和产品, 为传统企业客户提供本地化大数据服务,并帮助客户最大程度实现数据效用、创造数据价值。据介绍,百分点目前仍在提供多项 SaaS 业务,因为其技术使用门槛低、扩容方便,对数据量小、安全级别不太高的场景来说是最优选择。
因此,根据多年来在数据智能领域的实践经验,百分点首席架构师黄伟总结,主要有三个因素决定企业如何选择大数据服务:数据安全级别、数据量和业务发展预估。
数据安全级别
2018 年,无论是互联网公司 Facebook、打车应用 Uber 还是美国信用服务公司 Equifax 都曾爆出客户数据遭到窃取事件,不少国家和组织制定了大数据安全相关法律法规和政策,来推动大数据利用和安全保护。可以说,几乎所有行业都会面对数据安全与数据隐私问题,特别是电商、健康医疗、教育、通讯等需要直接面对 C 端用户群体的领域,对个人隐私和数据安全等问题的处理更加敏感。
传统企业考虑到自身技术能力的不足,都不可避免会选择第三方大数据服务,但也需要具备一定鉴别能力和数据安全的管控能力。
相比较云平台大数据服务,黄伟认为,本地大数据厂商无论是在架构、产品 ,还是操作规范、工作流程中,均加强了对数据安全的全面管控和保证。在数据安全层面,预防优先于弥补,对不少企业而言,数据安全不容出错,不同安全级别对应不同的方案措施,需要做好安全防护。
数据量
云平台初始进入门槛较低,所需成本比本地平台初期建设要低很多,尤其是历史负担较轻(本地原始数据量较小,迁移成本不高)的企业。但是,黄伟表示,随着企业数据规模的增大,云平台使用成本的增幅将大大超过本地平台。对企业而言,必须对数据量增长进行预判,尽早选择合适的大数据解决方案,一旦数据体量达到一定规模,何种迁移方式都需要耗费大量成本。
业务发展预估
在选用平台服务时,企业除了考虑当前的数据安全、数据体量成本,一定还要考虑未来的业务增长空间,从而综合选择服务。随着业务的发展,企业将数据应用到企业运转的各个环节,平台运转高负荷亦会持续,考虑运维、机房、扩容成本,依然是本地自建更划算。当然,企业在发展初期可以选择第三方来提供云服务,但也需要根据数据价值产出来扩充自身技术和运维团队能力,增强对数据的掌控能力,以应对未来业务增长产生的新诉求。
不难看出,云平台和本地大数据服务均有足够的细分市场,成本是这其中很重要的一个因素,且成本与数据体量密切相关。简单来说,小数据量企业更适合云平台大数据服务,大数据量则更适合本地大数据服务。
本地大数据服务的生存空间
现实中也有不少企业选择上云,但不用云供应商提供的大数据服务,这部分企业尤以中型互联网公司居多,他们具备一定技术能力,可以独立搭建云平台大数据服务并进行运维。黄伟认为,这可能还出于对安全和价格等多方考虑。云大数据服务让用户相比 IaaS 与数据更近了一步,因而会让数据安全感降低;在同等数据量增长条件下,云供应商提供的大数据服务价格更贵也可能是一个原因。
对比来看,本地大数据的优势主要还是安全性好、大数据量下成本低,适合大数据体量(高负荷)、高安全性的企业需求;云大数据服务的优势主要是小数据量下成本低(入门门槛低、运维扩容方便),适合小数据体量(低负荷),低安全性需求。云大数据服务一般由互联网寡头提供服务,产品成熟度更高;本地大数据服务在产品成熟度上亦在持续进步。
从客户群体来看,本地大数据服务厂商的客户大多来自于银行、保险、证券、政务、制造等数据敏感型传统企业客户和政府客户;而云厂商大数据服务的客户更多来自于新经济体下的中小企业(新零售、新金融等)。不同的客户群体,大数据服务选择的偏好各有不同。
因此,黄伟认为企业大数据服务的未来会是本地、云平台混合使用,不会有绝对的主流,但是针对特定群体的主流服务已经形成。
采访最后,黄伟综合分析了初创互联网企业、成熟互联网企业和线下传统企业的最优选择:
对初创互联网企业而言,前期业务试错阶段,控制成本、快速验证概念为核心需求,且还未形成一定体量,数据安全亦不是核心矛盾,快速接入云大数据平台是一个较好的选择;
对成熟的互联网企业而言,数据安全已是核心矛盾,加之数据规模较大,自建大数据平台成本较低,选择本地大数据服务厂商为其搭建为最优;
对线下传统企业而言,由于自身业务已运转多年,必然产生和积累了海量数据,大多希望利用这些大数据提高业务效率,综合考虑数据安全、数据体量和未来数据使用场景,绝大多数客户会倾向于选择本地大数据服务。首先是数据安全方面:对这类客户而言,数据安全出现一点问题,就可能决定整个企业的未来走向,亦有部分数据保密级别更高的客户,环境整体与互联网隔离,也会倾向选择更加安全可靠的本地大数据服务;其次是数据体量和未来数据使用场景方面:这类客户不只需要大数据平台的产品和技术,也在持续转变着企业经营思维,拓展业务场景,数据计算的场景繁多,平台运转高负荷亦会持续,自建是最优选择。
存在即合理,不同的技术均有其存在的必要性,经过这几轮探讨(《观点:云大数据服务一定是终极形态吗?》、《本地 vs 云:大数据厮杀的最终幸存者会是谁?》),本地大数据服务与云平台大数据服务的适用场景已经非常清晰,企业可以根据自身的业务特点、发展需求和安全级别选择适合自己的方案,当然也可以进行多方选择,对数据进行合理利用。最终,让技术更好得为业务服务,而不是牵制业务发展。