基于生命周期理论的农业科学数据中心化管理模式
高飞1,2, 周国民2,3, 满芮2,4
1 中国农业科学院作物科学研究所,北京 100081
2 国家农业科学数据中心,北京 100081
3 中国农业科学院农田灌溉研究所,河南 新乡 453002
4 中国农业科学院农业信息研究所,北京 100081
摘要:农业科学数据资源的建设、管理与共享工作得到了世界各国政府、科研机构和科学家的高度重视,相关国际组织和农业科学数据平台格外活跃,为农业科技创新提供了有力支撑。从科学数据资源建设的现状来看,科学数据管理中心化是未来的发展趋势。对农业科学数据中心化管理模式进行探索,构建了农业科学数据生命周期管理模型,并从科学数据管理标准、数据汇交与加工、数据长期保存和数据共享服务4个方面对模型进行解释,力图为科学数据管理、共享与服务提供参考。
关键词:农业科学数据 ; 生命周期 ; 管理模式 ; 数据共享
论文引用格式:
高飞, 周国民, 满芮. 基于生命周期理论的农业科学数据中心化管理模式[J]. 大数据, 2022, 8(1): 24-36.
GAO F, ZHOU G M, MAN R. Centralization of agricultural scientific data management model based on life cycle theory[J]. Big Data Research, 2022, 8(1): 24-36.
0 引言
近年来,农业科学数据资源的建设、管理与共享工作得到了世界各国政府、科研机构和科学家的高度重视,相关国际组织和农业科学数据平台格外活跃,农业科学数据管理工作持续推进,为农业科技创新提供了有力支撑。联合国粮食及农业组织(Food and Agriculture Organization,FAO)发布了农业环境指标、农业科技指标、土地利用、渔业资源等10多个数据库,积极促进农业科技创新研究。国际橡胶研究组织(International Rubber Study Group,IRSG)搭建了世界天然橡胶产业数据库,数据覆盖世界主要天然橡胶的生产面积、产量、库存量、贸易量、市场价格以及主要天然橡胶消费国的消费量、进出口量、进出口价格等。国际椰子共同体(International Coconut Community,ICC)、国际可可组织(International Cocoa Organization, ICO)、国际胡椒组织(International Pepper Community,IPC)等分别搭建了对应的热带作物产业数据库,为热带作物经济研究提供了数据支撑。我国科学数据平台建设始于21世纪初,2014年建成地球系统科学、人口与健康、农业等8个领域的国家科技资源共享平台,2019年科学技术部、财政部对原有国家平台进行优化调整,形成了20个国家科学数据中心,推进相关领域科技资源向国家平台汇聚与整合。从科学数据资源建设现状来看,科学数据中心化管理是未来发展趋势,但数据中心如何管理科学数据、进行数据共享还需探索。
1 模型与理论基础
1.1 科学数据生命周期
科学数据产生于科学实验、调查、观测等科学研究活动,服务于科研工作者,其生命周期与科研工作流程紧密相关。从现有文献来看,根据研究内容的不同,科学数据生命周期各阶段划分略有不同,大致可分为数据计划、数据获取(生产)、数据处理、数据存储、数据共享(重用)5个阶段。杨传汶等人在此基础上增加了数据更新阶段,并提出了基于科研动态的数据服务,如协助制订数据计划、设计元数据、提供保存工具、提供领域专家信息、提供数据检索服务、数据评价交流和协助数据更新完善等。储节旺等人将数据共享细分为共享、分析、再利用3个环节,构建了科学数据管理体系,包括科学数据管理制度、管理风险防控体系、数据质量评估和基于科学数据生命周期的数据资源配置、技术支持、人才队伍建设和信息素养培育。夏义堃等人从学科特性和学术伦理角度出发,认为应从基础层(政策标准、基础设施、数据能力、资金保证)、流程控制层(数据管理计划、采集、组织、保存、共享利用)和主体层(资助机构、研究机构、出版商、数据平台)3个层面对生命科学数据的质量进行控制。陈欣等人进行了社会科学数据特征研究,将数据生命周期简化为创建、分析、公开3个阶段。姚占雷等人基于人文社科数据生命周期各阶段特点,构建了数据管理平台,满足人文社科研究学者的科研需求。生命周期是一种有效的分析工具,可以清晰地反映数据创建后的各阶段特点,本文采用此方法进行农业科学数据中心化管理模式研究。<