大数据驱动的海洋人工智能服务平台设计与应用

本文介绍了一种大数据驱动的海洋人工智能服务平台,旨在为科研用户提供一站式机器学习服务。平台包括硬件资源层、服务层和应用层,支持数据管理、算法库、预训练模型库和模型开发工作流。关键技术涉及数据资源管理、算法资源库和预训练模型库。平台应用于深海生物识别与统计分析、海洋次表层温盐场重构等领域,提高了科研效率。
摘要由CSDN通过智能技术生成

摘要

【目的】大数据驱动的海洋人工智能服务平台集成海洋人工智能相关算法、软件工具和数据资源构建支持海洋人工智能研究的科研信息化环境,为科研用户提供“一站式”机器学习即服务。【方法】本文基于海洋领域人工智能研究对数据、软件、算法和定制工作流的实际需求,提出一种大数据驱动的海洋人工智能服务平台框架设计,阐述平台总体架构以及构建海洋人工智能服务平台的关键技术方法,并给出平台支撑实现的海洋人工智能模型研究案例。【结果】大数据驱动的海洋人工智能服务平台提供海洋人工智能模型开发环境,支持数据预处理、特征工程、模型训练、超参数调整、模型评估、模型部署与模型推理等功能,能够帮助海洋领域科研人员搭建海洋人工智能研究工作流,进一步研发面向海洋场景应用的人工智能模型产品。【结论】大数据驱动的海洋人工智能服务平台作为新型科研信息化平台,将促进海洋科学和人工智能的交叉融合,助推研究所人工智能海洋学学科建设,推动海洋大数据与人工智能科研范式变革。

关键词: 科研范式变革; 海洋大数据; 海洋人工智能; 机器学习即服务; 工作流管理; 模型开发s

引言

海洋是地球系统的重要组成部分,海洋在调节地球气候、碳封存等方面的作用至关重要。现代海洋科学具有鲜明的研究目标宏大、多学科交叉的大科学特点,许多待攻克的科学问题,其规模和复杂性不断扩大,呈现出数据密集型和数据驱动的特征。

随着海洋观探测和数值模拟技术的发展,海洋数据呈爆炸式增长。例如,2000年启动的国际Argo计划及其Argo实时海洋观测网[1]布放的浮标数量及其活跃浮标数量逐年增加,其收集的观测剖面数量也在不断增加。截至202112月,该观测网已经获得了超过250万条全球海洋0-2000米水深范围内的物理环境要素(温度、盐度)和部分生化环境要素(溶解氧、叶绿素和pH等)剖面。美国在1978年发射的第一颗海洋卫星Seasat[2]的空间分辨率为1.5度,而新一代海洋卫星计划SWOT[3-4]的空间分辨率将达到0.05度,随着分辨率的不断提升,获取的海洋测高数据将指数级增长。根据NASA地球观测系统数据信息系统EOSDIS统计,其每天产生的数据量约为33TB,每年约为12PB,随着SWOT计划的实施,每年获取的数据量将达到48PB,按照这个增长速度,EOSDIS归档的数据总量预计将从目前的约42PB增长到2025年的250PB[5]。海洋领域已经全面进入大数据时代,数据量的空前增长使科学家使用常规方法分析数据并提取信息变得越来越困难。

随着云计算、大数据、人工智能等技术的不断融合发展,科学研究范式逐渐演变为大数据+人工智能科学研究范式,为海洋科学研究提供了新思路和新手段。联合国海洋十年计划[6]中指出,数据和信息是实现海洋十年成果的关键推动因素。美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration, NOAA)制定了大数据和人工智能长期战略[7],将充分利用机器学习来改善或替代现有的核心技术,以改善预报和数据服务。欧洲中期天气预报中心(European Centre for Medium-Range Weather Forecasts, ECMWF)发布了其未来十年机器学习路线图[8],规划将机器学习应用到数值天气预报和气候服务领域。

传统的海洋科学和人工智能研究往往相对独立,而现在越来越多的研究者开始在海洋学、计算机科学、数学等多个领域之间开展合作研究,以实现更加综合的研究目标。另一方面,传统的人工智能研究方法通常是基于专家系统或规则库等人工设定的知识,而现在越来越多的研究方法是基于数据驱动的机器学习技术,通过海量数据的训练来提高模型的性能,从而实现更加智能化的功能。因此,大数据驱动的机器学习和深度学习等人工智能方法在海洋科学研究中的应用范围正在迅速扩大。机器学习方法已经被证明可以有效地从海洋科学领域收集的大量数据中识别和提取其中的模式和规律。目前,机器学习可以在以下方面发挥作用[9⇓⇓⇓⇓-14]:(1)多源海洋观测资料质量控制和同化融合,建立网格化海洋观测数据产品;(2)针对海洋中小尺度过程(如中尺度涡旋、内波、锋面)以及海洋目标(如船只、舰艇、生物、溢油)的智能识别和分析;(3)海洋环境预测预报物理模型参数化改进和模式订正研究。

针对海洋人工智能模型研发方面存在以下问题与需求:(1)缺少专用于海洋领域卫星遥感影像、深海生物、现场调查观测、再分析产品等数据的标注软件以及支持数据ETL(提取、转换、加载)的数据治理软件;(2)统一数据存储和访问接口标准的训练数据集资源管理门户系统;(3)社区发布共享的海洋领域人工智能预训练模型库;(4)缺乏统一的海洋人工智能模型开发工作流定制管理引擎。

互联网上已有的数据科学和人工智能服务平台,大多是基于商业云计算平台提供服务,如Google ColaboratoryAmazon SageMakerKagglePaperspace等平台。这些平台依托其强大的云计算基础设施中的GPUTPU等异构计算资源,提供基于Web浏览器的代码开发编辑环境,使用户能够进行人工智能模型训练、部署和推理等人工智能相关研究工作。然而,这些平台提供的主要是通用的人工智能计算服务,由于缺乏特定学科领域的数据资源、算法模型库和科研软件等资源,面向特定学科领域需求提供定制化服务的能力较欠缺。

本文基于海洋领域人工智能研究对数据、软件、算法和定制工作流的实际需求,提出一种大数据驱动的海洋人工智能服务平台框架设计,阐述平台总体架构以及构建大数据驱动的海洋人工智能服务平台关键技术方法,并给出平台支撑实现的海洋人工智能模型研究案例。

1 海洋人工智能服务平台架构

平台依托中国科学院海洋科学数据中心硬件平台,采用超融合基础架构整合计算、存储和网络等基础设施资源,通过构建Kubernetes集群对GPUCPU等计算资源进行统一调度和分配,海洋数据处理软件和深度学习框架以容器镜像的形式为用户提供易用的人工智能模型开发服务。平台按照分层架构进行设计,主要包括硬件资源层、平台服务层和应用层。平台架构如图1所示。

1


1   海洋人工智能服务平台架构图

Fig.1   Ocean AI service platform architecture


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗伯特之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值