流式计算的应用场景

流式大数据呈现出实时性、易失性、突发性、无序性、无限性等特征,对系统提出了很多新的更高的要求。2010 年,Yahoo 推出了S4 流式计算系统,2011 年,Twitter 推出了Storm流式计算系统,在一定程度上推动了大数据流式计算技术的发展和应用。但是,这些系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等诸多方面仍然存在着明显不足。如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题。

大数据流式计算主要用于对动态产生的数据进行实时计算并及时反馈结果,但往往不要求结果绝对精确的应用场景。在数据的有效时间内获取其价值,是大数据流式计算系统的首要设计目标。因此,当数据到来后,将立即对其进行计算,而不再对其进行缓存,等待后续全部数据到来再进行计算。大数据流式计算的应用场景较多,按照数据的产生方式、数据规模大小以及技术成熟度高低3个不同维度,金融银行业应用、互联网应用和物联网应用是3 种典型的应用场景,体现了大数据流式计算的基本特征。从数据产生方式上看,它们分别是被动产生数据、主动产生数据和自动产生数据;从数据规模上看,它们处理的数据分别是小规模、中规模和大规模;从技术成熟度上看,它们分别是成熟度高、成熟度中和成熟度低的数据。

(1)金融银行业的应用
在金融银行领域的日常运营过程中,往往会产生大量数据,这些数据的时效性往往较短。因此,金融银行领域是大数据流式计算最典型的应用场景之一,也是大数据流式计算最早的应用领域。在金融银行系统内部,每时每刻都有大量的结构化数据在各个系统间流动,并需要实时计算。同时,金融银行系统与其他系统也有着大量的数据流动,这些数据不仅有结构化数据,也会有半结构化和非结构化数据。通过对这些大数据的流式计算,发现隐含于其中的内在特征,可以帮助金融银行系统进行实时决策。在金融银行的实时监控场景中,大数据流式计算往往体现出了自身的优势。
风险管理:包括信用卡诈骗、保险诈骗、证券交易诈骗、程序交易等,这些需要实时跟踪发现。
营销管理:如根据客户信用卡消费记录,掌握客户的消费习惯和偏好,预测客户未来的消费需求,并为其推荐个性化的金融产品和服务。
商业智能:如掌握金融银行系统内部各系统的实时数据,实现对全局状态的监控和优化,并提供决策支持。

(2)互联网领域的应用
随着互联网技术的不断发展,特别是Web 2.0时代的到来,用户可以实时分享和提供各类数据。不仅使得数据量大为增加,也使得数据更多地以半结构化和非结构化的形态呈现。据统计,目前互联网中75% 的数据来源于个人,主要以图片、音频、视频数据形式存在,需要实时分析和计算这些大量、动态的数据。在互联网领域中,大数据流式计算的典型应用场景如下。

搜索引擎:搜索引擎提供商们往往会在反馈给客户的搜索页面中加入点击付费的广告信息。插入什么广告、在什么位置插入这些广告才能得到最佳效果,往往需要根据客户的查询偏好、浏览历史、地理位置等综合语义进行决定。而这种计算对于搜索服务器而言往往是大量的:一方面,每时每刻都会有大量客户进行搜索请求;另一方面,数据计算的时效性极低,需要保证极短的响应时间。
社交网站:需要实时分析用户的状态信息,及时提供最新的用户分享信息给相关的朋友,准确地推荐朋友,推荐主题,提升用户体验,并能及时发现和屏蔽各种欺骗行为。

(3) 物联网领域的应用
在物联网环境中(如环境监测),各个传感器产生大量数据。这些数据通常包含时间、位置、环境和行为等内容,具有明显的颗粒性。由于传感器的多元化、差异化以及环境的多样化,这些数据呈现出鲜明的异构性、多样性、非结构化、有噪声、高增长率等特征。所产生的数据量之密集、实时性之强、价值密度之低是前所未有的,需要进行实时、高效的计算。在物联网领域中,大数据流式计算的典型应用场景如下。
智能交通:通过传感器实时感知车辆、道路的状态,并分析和预测一定范围、一段时间内的道路流量情况,以便有效地进行分流、调度和指挥。
环境监控:通过传感器和移动终端对一个地区的环境综合指标进行实时监控、远程查看、智能联动、远程控制,系统地解决综合环境问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值