选型宝访谈:移动+社交时代,如何治理“大数据洪水”?

本文是选型宝访谈Informatica中国北方区总经理李晨的记录,探讨了大数据时代的挑战和应对策略,特别是智能数据湖的概念。李晨解释了数据仓库、大数据和数据湖的区别,强调数据湖在自服务和快速响应业务需求上的优势。他还介绍了Informatica的数据治理框架和产品布局,以及如何帮助企业进行数据治理成熟度评估。此外,他还分享了智能数据湖在多个行业的应用场景和其在数据安全、自服务方面的智能化特点。
摘要由CSDN通过智能技术生成

写在前面

不管你是否愿意,随着移动互联网和社交工具的普及,一个充满了机遇和挑战的大数据时代悄然来临了。就在大家纷纷谈论数据驱动创新、数据创造价值的时候,仍有许多企业的CIO/CDO在这个新时代面前感到茫然和困惑:

我的企业的数据在哪里?它有什么价值?

数据治理,应该建立怎样的完整框架?

在完整的框架下,应该用怎样的工具武装自己 ?

移动+社交时代,海量非结构化、半机构化数据涌来,如何应对?

智能数据湖是怎么回事儿?它和数据仓库是什么关系?

……

为了找到这些问题的答案,我们特意采访了全球领先的数据管理专家Informatica的中国北方区总经理李晨先生。下面就让我们一起听听李晨先生与选型宝创始人兼CEO殷勇的精彩对话吧。

殷勇

提到大数据,我们首先会遇到一些概念,比如说大数据、数据仓库、数据湖等,请李总先为我们梳理一下这些概念,说说它们的发展渊源吧。

李晨

这三个概念里,最先兴起的是“数据仓库”,这个技术已经有20多年的历史了。从上个世纪九十年×××始,随着IT系统的逐渐增多,数据之间的交互也随之增多,这时客户会发现,只拿到一个系统的数据是完全不够的,他需要去汇总很多系统的数据,在这个时候,数据仓库就应运而生了。顾名思义,数据仓库就是把数据放在一个地方进行集中管控,就像一个仓库一样。数据仓库主要针对结构化数据进行存储和应用,比如一些OLTP(联机事务处理过程)系统产生的数据。数据仓库将这些数据汇总到一起,为管理经营者在业务分析、决策支持等方面提供支撑。

随着业务的逐渐增多和技术的不断发展,出现了互联网、移动互联网、自媒体以及很多社交工具,还有工业自动化以及物联网等,随之而来的,是海量的、爆炸式增长的数据。这个时候,传统的数据仓库对数据格式的支持、对数据种类的支持、以及对数据量的支持就已经力不从心了,因而需要一些新的技术来承载这些数据,这个时候,大数据技术就应运而生了。

大数据平台的这个“大”体现在两个层面,一个层面是数据量大,它的数据量可以是传统数据仓库的几十倍、几百倍甚至上万倍;另一个层面是数据繁杂,会有很多非结构化数据、半结构化数据,以及很多传感器的信息,这些信息是我们传统的结构化数据平台不能支撑的。

大数据平台在经过了近十年的发展之后,现在已经逐步趋于成熟,随之而来的,是一个新的问题:我们很难再像以前一样,在这样海量的数据里面清晰、快速、准确地找到我们所需要的数据了。就像我在水盆里去找一粒沙子和我在大海里面去找一粒沙子,这个难度和所要花费的时间是不可同日而语的,这个时候应运而生的,就是我们的数据湖的概念。

数据湖更关注的理念,在于快速、精准、高效,尤其是自服务。一般来讲,在传统的IT建设的过程中,我们建立数据仓库、建立BI(商业智能)系统,进行数据挖掘分析、报表展现等,这些往往是由业务需求驱动的,而我们的业务人员对这些复杂的IT系统的了解一定是不够深入的,需要IT部门来帮忙处理。他们会把这些业务需求转给IT部门,由IT部门的同事把这些业务需求转换成技术方案来实现。但是,在大数据时代,数据量很大,数据的变化也很快,提出需求的频率可能也是以前的很

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值