背景 法国国家航空航天科研局(ONERA)的任务是寻找提高行业竞争力、保护环境和提高航空航天器安全性的解决方案,这对高性能计算资源有着极高的要求。虽然有七个科学部门共用这些系统,但涉及计算流体动力学和能量学(CFDE)的两个部门(空气动力/气动弹性/声学部和针对能源方向的多元物理场部)占用了该组织将近 95% 的 CPU使用率。更重要的是,法国国家航空航天科研局的所有 CPU 运行的都是专有代码,因此法国航空航天实验室特别热衷于了解新兴技术,以寻找更好的软件架构。2015 年,作为一个定期升级周期到来,法国国家航空航天科研局开始考虑更换原来的主要生产机器Stelvio。
部署新高性能计算系统面临的挑战
自成立以来,法国国家航空航天科研局一直对高性能计算系统有着极高的需求。该局内部安装过所有矢量超级计算机,包括 CRAY 1S、X-MP、Y-MP 和 C90 系统,以及NEC SX-4 和 SX-8 系统。其第一台超标量超级计算机是 2006 年安装的、搭载英特尔® 安腾® 处理器的 Novascale Bull 计算机 [528 个内核,3.4 Tflops]。早在 1996 年,法国国家航空航天科研局就与英特尔合作安装了配备 i860 处理器的英特尔® Paragon XP 系统。法国国家航空航天科研局所有七个科学部门的研究人员在进行各种研究时都需要使用这些系统。例如,电磁学和雷达部门依靠需要依靠这些系统来研究电磁兼容性(EMC)和隐形等问题,物理部门需要进行大量的闪电相关研究,但就目前而言,这些系统的最大用户是计算流体动力学和能量学部门。1. 如何用新型生产系统更好地满足用户需求和处理需求?在考虑如何用新型生产系统更好地满足用户需求和处理需求方面,法国国家航空航天科研局的主要诉求是更强的处理能力和架构一致性。法国国家航空航天科研局高性能计算特别顾问 Alain Refloch表示科研局打算采用 x86 架构,以尽可能地降低移植成本。同时,使用 ONERA 代码的行业合作伙伴使用的也是 x86 架构,因此在评估各种选项时,采用x86架构可以带来更高的性价比。2. 如何保证多元物理仿真平台的基础设施功能及性能?新型计算机主要用于多元物理学研究。为此,有必要对数值方法开展一番研究,以稳定、保守的方式耦合多元物理系统,从而产生可靠的物理结果。未来十年内,多元物理场工具和流程必将取得重大进展。因此,法国国家航空航天科研局多元物理仿真平台的基础设施应该允许不同的物理学研究机构在网格管理、耦合技术、并行性、通信调度、插值、误差估计和 UQ 软件、数据管理工具、可视化和 I/O 以及弹性等方面展开合作。3. 如何部署新的集中式开发系统?考虑到法国国家航空航天科研局研究项目的多样性以及不同部门的专业需求,该科研局还计划部署一种新的集中式开发系统,其架构与新型超级计算机相同,也包含专用节点。
高性能计算系统解决方案摘要
凭借新型系统,法国国家航空航天科研局得以兼顾开发和生产。新的生产系统(名为 Sator) 采用英特尔® 至强® 处理器和英特尔® OPA 架构,向法国国家航空航天科研局提供了所需的超高性价比。Sator 为法国国家航空航天科研局的专业研究提供了强大的解决方案,较以前的系统向前迈进了一大步。开发机器 SPIRO 配备了专门的英特尔® 至强® 可扩展处理器和英特尔® 至强融核™ 处理器以及GPU 节点,有助于确保开发人员始终利用最新的技术。解决方案组成部分• Sator — NEC HPC1812 Rg 2 服务器搭载英特尔® 至强® E5-2680v4 14c 2.4Ghz 处理器,共计 17,360 个内核,采用英特尔® Omni-Path 高带宽网络• SPIRO — HPE SGI 系统具有 3,000 多个英特尔® 至强® 内核,以及包含英特尔® 至强融核™ 处理器、英特尔® 至强® 可扩展处理器和 GPU 的专用节点
高性能计算系统解决方案
采购新系统时,法国国家航空航天科研局根据法国公共采购规定发布了征求建议书。实验室根据技术考虑因素、基准测试结果以及支持和服务价格的组合做出了最终选择。所有提案都基于英特尔® 处理器,而各个提案的主要区别在于处理器内核数量和处理器频率。生产系统Sator对于新的生产系统(名为 Sator),法国国家航空航天科研局选择了搭载英特尔® 至强® 处理器(每个处理器有 14 个内核)的NEC HPC1812 Rg 2 服务器。该系统总共包含 17,360 个内核,并采用 100Gbps 的英特尔® Omni-Path 架构。2017 年 6 月,该系统实现了 579.2 TFlops 的 Linpack 性能和 667 TFlops 的理论峰值性能,成为 TOP500 排行榜上排名第 341 位的系统。(在 2017 年 11 月的 TOP500 排行榜中,Sator 下降至第 473位)。Refloch 提出Linpack 数值中的 0.2 非常重要,因为目前在 579 到580 Tflops 之间有三个站点。
图 1. 法国国家航空航天科研局的 NEC HPC1812 Rg 2 系统(被命名为 Sator) 开发系统SPIRO对于称为 SPIRO 的集中式开发系统,法国国家航空航天科研局选择了 HPE SGI 系统。该系统包含供法国国家航空航天科研局不同用户群体使用的专用节点:132 个运行英特尔® 至强® 可扩展处理器的节点(E5-2650V4双路,3168 个内核),配备 128 GB 内存6 个运行英特尔® 至强融核™ 7230 处理器的节点1 个运行两个 Nvidia* Pascal* GPU 处理器的节点3 个运行 Nvidia Tesla* K80 GPU 处理器的节点5 个具有 256 GB 内存的节点,2 个 512 GB 节点和 1 个1 TB 节点开发系统也使用了英特尔® Omni-Path 架构。在该系统中,英特尔® OPA 连接了 38 个计算节点,每个端口支持高达 100 Gbps。另外 94 个计算节点使用 1 Gbps 以太网* 进行连接。除了每年增加新节点以跟随处理器的发展,法国国家航空航天科研局还为网络文件服务器添加了六个节点,为连接添加了七个节点。该新型集中式开发机器为法国国家航空航天科研局带来了诸多优势,例如降低维护要求和成本。最重要的是,它为法国国家航空航天科研局的所有开发团队提供了对专用节点的通用访问,除了执行非回归测试外,还为测试验证案例提供了充足的计算能力。对于计算流体动力学和能量学开发团队来说,共享相同的机器和开发工具可将所有人更紧密地联系在一起,这对于推进法国国家航空航天科研局的计算流体动力学和能量学软件路线图以及向流体动力学和能量学通用平台转变的目标至关重要。虽然便捷性和性能是新系统的首要考虑因素,但为了拥有更集中化的开发机器,还包括以下目标:降低维护成本;提供充足的计算能力来测试有关案例验证的开发工作,而不仅仅是非回归测试;使所有开发团队能够共同访问专用节点(大内存、新处理器)该机器旨在供法国国家航空航天科研局的所有开发人员使用,而非仅仅运行计算流体动力学和能量学代码,此外,它还通过共享相同的机器和相同的开发工具,将不同的计算流体动力学和能量学开发团队汇聚到了一起。这符合法国国家航空航天科研局的计算流体动力学和能量学软件路线图—朝着通用平台的方向迈进。
结果
虽然法国国家航空航天科研局对于 Sator 系统的使用仍处于起步阶段,但 Refloch 表示,该系统的初期使用体验十分令人满意。Refloch 指出英特尔® 至强® 处理器与英特尔® OmniPath 高带宽网络的组合是迄今为止该科研局运行的工作负载的理想选择。在该 NEC 系统的早期使用过程中,法国国家航空航天科研局对elsA新架构的一个原型(称为灵活空气动力学求解技术(FAST))进行了测试。法国国家航空航天科研局在 17,000 多个内核上展现了 95% 的可扩展性,这种可扩展性极易实现。 Refloch 表示,作为 IPCC(英特尔® 并行计算中心,英特尔® PCC)计划的一部分,法国国家航空航天科研局针对多核情况,对其灵活空气动力学求解技术(FAST)应用程序进行矢量化处理,这项工作有助于加快代码的现代化工作。Refloch认为在这一过程中,英特尔® 的工具(包括英特尔® Advisor)也提供了很大的帮助。总体而言,大多数用户的常用应用所使用的内核数量是以前的两倍多,因此在大多数情况下,科研局研究人员所用应用的性能将得到显著提高,NEC 系统预计将提供的省时和节能优势。
文章摘自英特尔精英汇
想购买及了解更多英特尔产品详情,欢迎咨询以下联系方式!
永信贵宾会集团联系方式
咨询热线:0755-88603572
永信贵宾会官网:www.yyhsjs.com
客户垂询邮箱:cuifang.mo@yyhsjs.com
客户垂询QQ:1627678462
地址:深圳市福田区深南大道1006号国际创新中心C座11楼
邮编:518026