2021-05-27
美国能源部旗下橡树岭国家实验室(OLCF)宣布了有关即将推出的FrontierExascale(E级超算,每秒可进行百亿亿次数学运算的超级计算机)超级计算机的Orion存储子系统的首个详细信息,该超级计算机将于2021年下半年投入使用。作为业界第一台1.5ExaFLOPS超级计算机,Frontier将需要一个非常快速的存储子系统。看起来它有望获得一个具有700PB的存储,75TB/s的吞吐量和150亿IOPS((Input/OutputOperationsPerSecond)的性能。
OLCFFrontier的输入/输出工作组负责人SarpOral表示:“据我们所知,Orion将成为世界上最大和最快的单文件POSIX命名空间文件系统。
Frontier超级计算机实际上将具有两个存储子系统:一个系统内存储层,具有超过75TB/s的超大顺序读取性能和大约150亿个读取IOPS,以及一个称为Orion的中心范围文件系统,可提供巨大的读取速度700PB的容量。
Orion全局文件存储系统层:700PB容量,速度为10TB/s
由于Frontier依赖HPE的CrayShasta架构,因此其全局文件存储系统将在很大程度上依赖使用PCIe4.0/NVMe固态驱动器和传统硬盘驱动器的ClusterStor多层架构。
CrayClusterStor计算机使用AMDEPYC处理器,可以根据工作负载自动调整文件系统中的数据流,并根据需要在不同存储层之间转移I/O操作。这种转变使应用程序相信他们正在访问高性能的全闪存阵列,从而使性能最大化。
至于软件方面,Orion将使用开源的Luster并行文件系统(包括OLCF的Titan和Jaguar在内的全球超级计算机负载)以及带有卷管理器的ZFS。
通常,Frontier的中心范围的Orion将分为三个层次:
元数据层由480个具有10PB容量的NVMeSSD组成。
一个NVMe存储层,使用5400个SSD提供11.5PB的容量,峰值读写速度为10TB/s和每秒超过200万次随机读取输入/输出操作(IOPS)。
基于47,700个PMR硬盘的HDD存储层,提供679PB的容量,5.5TB/s的峰值读取速度,4.6TB/s的峰值写入速度以及超过200万个随机读取IOPS。
OLCF表示,Orion将拥有40个Luster元数据服务器节点和450个Luster对象存储服务(OSS)节点,整个系统总共有1,350个OST。每个OSS节点将提供一个用于性能的对象存储目标(OST)设备和两个用于容量的OST设备。此外,Orion将采用160个节点进行路由,这将为其他OLCF资源和平台提供3.2TB/s的峰值读写速度。
OLCF高性能计算存储和归档小组负责人DustinLeverman说:“Orion由于其极高的规模和硬盘/NVMe混合特性而在技术上不断突破。”“这是一个复杂的系统,但是我们的经验和最佳实践将帮助我们创建一种资源,使我们的用户可以使用Frontier来突破科学的界限。”
存储层:150亿读取IOPS时高达75TB/s
Frontier的存储层由直接安装到计算节点中的SSD组成,并使用PCIeGen4接口连接到AMD的EPYC处理器。这些NVMe驱动器将提供超过75TB/s的读取速度,超过35TB/写入的速度和超过150亿次随机读取IOPS的综合性能。
OLCF没有透露存储层的容量,但这只是本地存储,因此不要期望这里有数十PB的容量。
总结
总体而言,存储层为Frontier提供了高达75TB/s的惊人性能,而中心范围的Orion则提供了约700PB的容量。将此双层和多层存储子系统相结合,可以满足1.5EFLOPS机器和20MWatt功耗的需求:无与伦比的存储性能,可将数据馈送到CPU和GPU,并具有存储超级计算机所要存储的大型数据集的最终能力。
(转载自EETOP)