Hadoop下水环境模拟集群运算模式

本文提出了一种基于Hadoop的大数据分布式集群运算模式,应用于水环境模拟,解决了批量计算需求。通过实例验证,该模式在Delft3D模型中的可行性,表明可提高运算效率,具有良好的横向扩展性和容错性,适用于水环境模拟的批量计算场景。
摘要由CSDN通过智能技术生成

Hadoop下水环境模拟集群运算模式

马金锋1, 唐力2, 饶凯锋1, 洪纲3, 马梅1,4

1 中国科学院饮用水科学与技术重点实验室(中国科学院生态环境研究中心),北京 100085

2 深圳市环境监测中心站,广东 深圳 518057

3 石家庄市环境信息中心,河北 石家庄 050051

4 中国科学院大学资源与环境学院,北京 100190

摘要水环境数值模型是模拟、分析及预测水体中物质迁移转化过程及其效应的有效工具。水环境模型的高性能批量计算是当前水环境模拟研究的热点。大数据技术中的分布式集群计算模式为水环境模拟批量计算提供一种可行的解决方案。探索了水环境数值模型在大数据分布式计算框架下的适应性,提出了一种适用于水环境模拟的大数据分布式集群运算模式,并通过实例验证了该运算模式的可行性。

关键词 水环境模拟 ; 集群运算 ; 大数据 ; Hadoop

论文引用格式:

马金锋, 唐力, 饶凯锋, 洪纲, 马梅. Hadoop下水环境模拟集群运算模式.  大数据[J], 2019, 5(6):73-83

MA J F, TANG L, RAO K F, HONG G, MA M.Cluster computing mode for water environment simulation based on Hadoop. Big Data Research[J], 2019, 5(6):73-83


1 引言

水环境模型是指水体中的污染物(营养物质、悬浮物、藻类、有毒物质等)随水流在迁移过程中,因水动力和生物化学等因素的影响而发生的物理、化学和生物反应的数学描述和模拟。水环境中污染物的迁移转化过程模拟和预测是水生态环境健康诊断、预测、预警及控制管理的重要基础,水环境数学模型在国内外已有非常广泛的应用,并且成为国内外学者研究的热点。随着对水环境过程认知的进步、计算机运算能力的增强以及模型大量的普及应用,水环境模型取得了快速的发展,功能日益强大,但模型也变得更加复杂,这对运算的需求急剧增加。

尽管过去几十年间计算机的运算速度和容量得到快速提升,但水环境模型的高性能批量计算一直面临巨大挑战。综合运用并行技术和集群技术提高模型计算效率已成为环境领域和高端计算领域的研究热点。目前,研究工作主要集中在CPU、GPU独立或协同并行计算,包括通过单机多处理器实现高速计算能力、与普通计算机通过高速网络互联共享计算能力实现集群计算。前者严重依赖于单机性能,成本昂贵且计算速度的提高空间有限;后者将任务分散到各个节点执行,适用于计算密集型的作业,当节点需要访问的数据量较庞大时,网络带宽可能会成为系统的性能瓶颈。此外,在大规模分布式计算环境下,协调各个进程是一个很大的挑战,其中最困难的是合理处理系统的部分失效问题。从本质上讲,上述并行和集群技术都是基于区域分解和分块计算策略的,单算例被分解为多个子任务同时执行,以减少执行时间,适合单算例高性能计算。

在水环境模拟应用领域,水环境模拟预测、水污染风险动态预警、水质目标管理、突发水污染事故应急决策、洪水风险制图等应用对模型建模过程(参数率定、不确定性分析、模型验证)以及应用过程(情景分析)均提出了批量计算需求。单算例模式不适合批量计算应用。

大数据技术提供了一种新兴海量数据管理和计算模式,尤其是以Hadoop为代表的开源大数据平台,采用无共享(sharednothing)框架,能够实现失败检测,并提供良好的横向扩展和容错处理机制。这种分布式集群计算架构隐藏了并发、容错、数据分布和均衡负载等细节,可以运行在一群廉价的PC上,为水环境模拟批量计算提供了一种潜在的、经济可行的解决方案。

本文针对多算例并行计算需求,探索水环境模型在大数据技术框架下的适应性,

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值