目录
摘要
【目的】 生物医学领域对高性能计算需求突出,结合发展现状和挑战,提出针对性建议。【方法】 从计算基础设施、软件工具资源、人才成果统计、数据安全监管4个方面,调研国内外生物医学领域高性能计算平台建设进展,归纳总结发展特点、存在差距及现实挑战。【结果】 提出推进算网融合发展、鼓励软件研发创新、培养复合型人才、加强标准规范建设等发展建议。【结论】 围绕资源、技术、人员和标准开展高性能计算建设,以期推动生物医学与信息技术的深度融合,支撑新技术的研发、应用与服务。
关键词: 高性能计算; 生物医学; 发展现状; 挑战; 建议
引言
随着人工智能、云计算、物联网、大数据等技术快速发展,数据体量呈指数级增长,密集型计算需求不断增加,高性能计算对科学研究发挥着越来越大的推动作用,已成为科学、社会和经济发展重要的战略工具[1]。高性能计算也被称为超级计算(也称“超算”),主要通过将多台计算机系统的计算资源集中开展并行工作,以处理数据密集型或极端复杂的问题[2]。经过近10年的快速发展,我国超级计算已达到世界领先水平。2023年6月发布的第61届全球超级计算机TOP500榜单中,我国共有136台超级计算机上榜,占比超过总数的1/4[3]。截至2021年,科技部已批准9所国家超级计算中心,支持千余项国家级科学计算和工程项目研究工作[4],帮助攻克对精度和准度要求较高的核心技术难关,成为我国科技、创新、应用发展的重要支撑。截至2022年年底,我国算力总规模达到180EFlops(每秒18,000京次浮点运算次数),位列全球第二[5]。
随着第三代分子测序技术的发展,生物医学数据量快速增长,生物医学数据从PB组学时代迈入EB多维度大数据时代[6]。生物医学是高性能计算的重要应用领域,海量生物医学数据的汇交整合、归档存储、挖掘分析和应用共享需求迫切。2022年2月,工业与信息化部、发展改革委、卫生健康委等9部门联合印发《“十四五”医药工业发展规划》[7],明确推动医药产业数字化转型,以新一代信息技术赋能医药研发。在新基建、“东数西算”等相关政策的引导下,各领域纷纷加大对算力基础设施的建设布局[8],进一步推动了生物医学和信息技术的创新融合,加快了多重组学、基因工程、临床队列、精准医疗、药物研发等科学研究、应用和发展,有效缩短了创新研发周期,提升了科技创新效率,降低了科技创新成本,为我国实施科技强国战略奠定相关基础。
当前,我国国家超算中心的计算资源主要用于支撑大型、重要科研项目的核心技术攻关[9]。生物医学领域科研、教育机构众多,大量的研究团队存在许多中小规模数据运算需求,此类计算场景对资源灵活性和服务质量的要求相对较低,因此,研究机构基于自身集约型计算服务需求,相继开展高性能计算基础设施建设。本文基于国内外生物医学领域高性能计算平台发展现状,分析当前面临的挑战,并提出发展建议,以期对我国生物医学领域高性能计算建设与完善提供参考。
1 我国生物医学领域高性能计算发展现状
近10年来,欧美国家在生物医学领域高性能计算的资源建设、数据共享、软件研发、服务优化等方面取得了良好进展。为更好满足生物医学领域个性化、场景化的计算需求,我国研究机构积极开展高性能计算资源建设,但在建设规模、软件资源、人才成果、数据监管等方面与欧美国家仍存在差距。
1.1 尚未形成大规模高性能计算基础设施
欧美国家已建成规模庞大、算力领先的世界级生物医学高性能计算基础设施。美国国立卫生研究院(National Institutes of Health, NIH)Biowulf高性能计算集群始建于1999年,旨在为基因组学、分子和结构生物学、数学和图形分析等提供计算应用支持,截至2023年6月,集群已拥有3,456个计算节点,理论算力达2.49PFlops(每秒千万亿次浮点运算)[10]。Biowulf也多次入选全球最强大的500台超级计算机榜单(TOP- 500)[3]。欧洲生命科学大数据联盟ELIXIR成立于2013年,通过“枢纽和节点”的模式,创建了一个用于数据收集、存储、注释、验证、传送和使用的安全、可持续的高性能基础设施[11],例如,ELIXIR计算平台集合了联盟成员机构的算力资源,为欧洲生物医学大数据分析和密集型计算提供了基础支撑;ELIXIR数据平台汇集了联盟成员机构的关键数据,并与文献成果相关联,以推动全欧洲生命科学数据的共享和应用[12]。截至2023年6月,ELIXIR已惠及23个国家的250多个研究机构[11]。
近些年,我国生物医学高性能计算基础设施快速发展,现已初具规模。中国医学科学院/北京协和医学院[13]、中国科学院北京基因组研究所[14]、首都医科大学天坛医院[15]、四川大学华西医院[16]等机构陆续开展高性能计算集群建设,以满足生物医学数据在不同应用场景下的分析计算需求。其中,建设程度较好的华西医学大数据中心高性能计算集群,截至2023年6月,其计算节点达到103个,整体算力达到1.17PFlops,已支持42个科研团队,240多位研究人员开展工作,服务各类研究项目70余个[16]。
相较于美国Biowulf,我国生物医学研究机构的高性能计算集群在整体规模、算力水平等方面仍存在差距,具体情况详见表1。如四川大学华西医学大数据中心高性能计算集群,在整体规模上,其计算节点和处理核心数量与Biowulf 相差数十倍;在计算能力上,其理论算力接近Biowulf的1/2。从发展模式来看,ELIXIR利用欧盟组织结构优势,将各个国家研究机构间分散的计算资源集中共享利用,形成具有一定算力规模的高性能计算基础设施;而我国已建设的生物医学高性能计算集群仍处于满足各机构科研项目分析计算需求的独立发展阶段,尚未以合作形式对行业内的计算资源进行有效整合。
表1 美国NIH与国内机构高性能计算集群建设情况(截至2023年6月)
Table 1 Construction of High Performance Computing Cluster in NIH and Domestic Institutions (Up to June 2023)
序号 |
高性能计算集群 |
所属国家 |
建设机构 |
理论算力 |