基于国产处理器架构的高能物理数据处理系统

随着高能物理实验数据的激增,研究基于国产处理器的数据处理系统变得至关重要。文章介绍了高能物理数据处理系统的架构、关键软件移植以及在国产处理器上的应用评测,如EOS、ROOT、GEANT等。此外,文章提出了一种可计算存储技术,通过减少数据搬运,提高了处理效率。测试表明,基于国产处理器的系统在HS06基准测试、LHAASO事例重建和LQCD应用上表现出良好的性能。可计算存储技术在LHAASO KM2A解码和数据压缩上的应用评测验证了其有效性和效率提升。
摘要由CSDN通过智能技术生成

3b3000f73a261b0720efd875f72aa485.png

点击上方蓝字关注我们

61e060b8c9a758b77d6d9853fbf5fdb5.png


基于国产处理器架构的高能物理数据处理系统

 程耀东1,2,3, 程垚松1, 毕玉江1,3, 高宇1,2, 李海波1, 汪璐1, 姚秋玲1

1 中国科学院高能物理研究所,北京 100049

2 中国科学院大学,北京 100049

3 四川天府新区宇宙线研究中心,四川 成都 610213

 摘要随着规模的不断扩大,高能物理实验产生了越来越多的科学数据,迫切需要先进的数据处理系统来支撑科学研究。目前,以ARM架构等为代表的国产处理器发展迅速,高能物理数据处理系统面临着新的机遇与挑战。首先总结了高能物理数据处理系统的需求及体系架构;然后描述了在国产处理器上开展的高能物理数据处理软件移植等相关工作,并提出了一种新的面向高能物理数据处理的可计算存储技术方案;最后给出了在国产处理器架构上的典型应用评测结果。

关键词  国产处理器 ; 高能物理 ; 数据处理 ; 可计算存储

3fa45ff9cd77b80c366aed7e3d72d2e1.png

论文引用格式:

程耀东, 程垚松, 毕玉江, 等. 基于国产处理器架构的高能物理数据处理系统[J]. 大数据, 2021, 7(5): 17-30.

CHENG Y D, CHENG Y S, BI Y J, et al. Data processing system for HEP based on domestic processor architecture[J]. Big Data Research, 2021, 7(5): 17-30.

23527e86b1845e4f7981d84211c3727b.png

1 引言

随着装置复杂度的不断增加和规模的不断扩大,高能物理实验产生的实验数据越来越多,海量数据处理在计算规模、计算精度、即时性等方面的需求也越来越高,给传统计算体系架构带来前所未有的挑战,全球高能物理领域都在积极探索和研究最新的解决方案。ARM(advanced RISC machine)多核架构由于其自身的灵活性和自由性,逐渐成为业界研究的热点。近年来,以ARM为代表的国产架构服务器异军突起。ARM早期专注低功耗领域,在移动端处于领先位置,生态体系已经十分完善。随着多核异构计算时代和场景多样化计算时代的到来,国内服务器行业端生态逐步完善,以ARM为代表的国产架构服务器快速发展。为此,研究和开发基于国产多核架构的高能物理计算环境及软件有助于实现高能物理数据处理系统的自主可控及技术创新,从而促进高能物理计算架构演进,并加速科学发现。

当前,国内外高能物理实验的数据处理平台以x86 CPU架构为主。同时,图形处理器(graphics processing unit, GPU)、现场可编程逻辑门阵列(field programmable gate array,FPGA)、张量处理单元(tensor processing unit, TPU)等异构计算设备也开始受到重视,并被应用到高能物理数据处理系统中。结合高能物理的数据处理需求以及IT的发展,本文基于国产处理器及服务器等硬件,建设了高能物理数据处理系统,包括系统及平台软件、基础应用软件框架以及应用软件等。此外,本文提出了面向高能物理数据处理的可计算存储技术架构,基于ARM和FPGA构建存储节点,修改数据分析框架软件ROOT及数据存储软件EOS等,把计算任务从计算节点卸载到存储节点,避免数据搬运,实现了绿色节能、运算高效的数据处理模式。

2 研究背景

2.1 高能物理实验

高能物理研究组成物质的基本粒子及其相互作用规律,高能物理实验是研究高能物理的重要手段。当前,高能物理实验的规模通常很大,需要成百上千位科学家参加,同时会产生海量的实验数据,一个大型实验往往产生PB级甚至EB级的数据。例如,目前大亚湾核反应堆中微子实验已经累积了2 PB的实验数据;北京正负电子对撞机重大改造工程(BEPCII)已经累积了10 PB的实验数据,并且数据量还在不断增加;江门中微子实验(JUNO)预计在2022年开始取数,每年将产生3 PB的原始实验数据;高海拔宇宙线观测站(LHAASO)边建设边运行,目前已经累积了近10 PB数据,预计2021年完全运行以后,每年将产生8 PB以上的原始数据;高能同步辐射光源(HEPS)一期建设的15条光束线实验站预计平均每天产生200 TB的原始实验数据,峰值可达每天500 TB;在欧洲的大型强子对撞机(LHC)升级改造后的HL-LHC阶段,仅ATLAS探测器的数据量就将是目前的10倍以上,在2030年左右将超过3 EB/年,计算量增长60倍以上。这实际上已经超出了目前信息技术的处理能力,迫切需要突破新的技术。

因此,高能物理实验产生的海量实验数据需要借助先进的计算机技术进行处理和分析,同时实验的需求也助推了信息技术的不断发展,比如万维网、网格计算与云计算以及大数据处理等。

2.2 离线数据处理流程

粒子在高能物理实验的探测器中的运动过程被捕获,产生了大量的电子学信号。然后,通过触发判选和在线选择的事例,由在线数据获取系统(data acquisition, DAQ)以二进制文件的形式记录下来。这种数据被称作原始数据,主要包含探测器电子学信号的时间和幅度信息。通过高速以太网,原始数据文件被传输到磁带库永久保存。对原始数据进行刻度和重建后,生成重建数据,供物理分析使用。

离线数据处理和物理分析的简化过程如图

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值