概述
生物学是一门研究生物的结构、功能、发生和发展规律的科学,也是和人们日常生活最为密切的学科。当今的生物学研究早已离不开计算机的帮助,蛋白质结构研究,药物研究,生物信息学等场景,高性能计算都发挥了不可替代的作用,帮助研究者更好的从事药物设计、疫苗开发、处理基因数据,精准医疗研究等工作。
这里我们以蛋白质研究为例,蛋白质研究是结构生物学中的一大研究领域。结构生物学通过研究生物大分子的结构与运动阐明生命现象的科学。药物设计、疫苗开发和蛋白质分子性能改造等应用领域都以结构生物学的研究成果为基础。主要采用三维重构程序完成研究:
表1常见的并行电镜三维重构程序
上述软件的计算需求可以归纳为:
1 | 主要为浮点计算,其中有大量的单精度FFT计算; |
2 | 软件加速比接近线性,对网络依赖低; |
3 | 软件内存需求和I/O需求较大,需要配置并行文件系统; |
挑战
针对上述生命科学领域计算软件并行计算的特点,为了保证整个计算的性能和稳定性,对于存储系统有以下的需求:
为什么选择StarFS?
出众得性能
StarFS是一个性能为中心,围绕简单易用、易安装以及易管理而设计的领先并行文件系统。StarFS不断地发展和持续优化赢得了广大用户地信赖。
图1StarFS架构图
面向高性能计算集群存储架构设计
针对高性能计算应用高并发的特点,采用带外模式的大规模开放集群存储架构,通过高速网络将通用存储服务器中的CPU、内存、网络带宽、磁盘转速、总线性能整合在一起,形成一个高端存储器,使得存储总体性能高于计算处理能力与网络带宽的传输速度,以此来屏蔽由于磁盘和总线性能提升缓慢造成的存储性能瓶颈。我们将以全线速网络互连前端的计算节点和后端的存储及元数据节点,以保证存储设备的性能输出达到最大化。由于采用带外模式,很好的消除了元数据通路与数据通路的相互干扰。而元数据服务器的集群化和存储服务器的集群化,使得整个系统中不存在像NAS或者SAN系统那样的性能瓶颈点,因此能够完全满足高性能计算应用高并发的需求。
针对海量存储需求的高可扩展技术
高性能计算应用除了高并发访问的特点之外,海量数据存储也是其重要特征之一。从目前计算任务的需求以及未来发展趋势看,相信不久的将来高性能计算平台的存储容量会不断的扩大,从而达到几十PB或者上百PB,那么现有的存储系统会不断的扩展,为此,存储系统的海量高可扩展技术对计算平台非常重要,我们在StarFS在线无限制快速扩容以及负载均衡技术的基础上研制高可扩展存储技术,使得存储系统的规模能够随着计算应用的发展而高效、无需中断服务的在线扩展,同时达到随着容量的增加性能的线性增长。
面向高性能计算的字节粒度锁
普通的本地文件系统只提供文件粒度的锁,文件粒度的锁在文件这一级别上限制了并发,导致很多只是修改文件不同部分的进程或者线程也不能同时修改。而在很多高性能计算应用场景中,文件粒度锁限制了高并发,因为很多场景只是修改文件的一个部分,修改文件不同部分之间的进程或者线程理论上是可以同时进行的,但是文件粒度锁无法有效解决。
为了可以在文件内部可以进行并发读写,StarFS并行文件系统系统提供了字节粒度锁。这样加锁的粒度能够达到字节,修改同一个文件不同部分就可以并行执行,从而提高了同一个文件的IO性能,这在高性能计算应用场景中会非常有用。
面向多用户环境的增强型权限管理技术
服务生命科学研究的IT平台是一个多用户共享平台,每天都有很多用户在计算平台上面运行不同的任务,整个存储系统需要保证各个用户之间的任务相互独立、数据安全高可用,因此,传统的基于操作系统用户权限的管理技术无法完全满足计算平台的需求。在新研制的存储系统中拟提供增强型权限管理技术,除了兼容原有基于操作系统用户的权限管理之外,还增加了自身所特有的增强型权限管理技术,通过存储系统的后端管理平台直接为某个目录指定哪些用户、或者哪些应用服务器能够访问,哪些目录禁止用户删除、修改等。