百块刀片=10万亿次高性能计算机的解决方案`
高性能计算是英特尔至强5500新一代平台最先普及的细分领域,这一点正在市场上得到验证。在6月份的全球高性能计算机TOP500排行榜上,至强5500才发布短短三个月,就已经有33套系统入选。究其原因,主要得益于更换新架构后,新系统在浮点计算、带宽、延迟方面都取得了堪称“跨越式”的进展。
9月15日,在英特尔智能商用计算体验峰会上,中国科学院合肥物质科学研究院计算中心主任、中国科学院超级计算环境合肥分中心项目负责人曾雉也介绍了其利用基于至强5500处理器的浪潮刀片集群服务器构建10万亿次高性能计算系统的案例。
中国科学院超级计算环境合肥分中心项目负责人曾雉
据了解,建立中国科学院超级计算环境是中国科学院“十一五”信息化规划的重要内容,是由院超级计算总中心、分中心、所级计算中心构成的三层结构网格环境,目标是形成具有总计算能力200万亿次/秒以上的分布式高性能超级计算环境,旨在推动超级计算应用水平的提高,为科学院科研信息化建设提供支撑服务,成为中国国家网格的重要基础设施之一。合肥研究院作为首批京外批准建立的七个分中心之一,聚合计算能力将达到12万亿次/秒,总存储容量24.2T,预计在2009年9月底之前完成安装,其后将尽快向院内外提供服务。
经过中央国家机关政府采购中心组织招标,最终由浪潮公司中标。据了解,针项目需求,并结合浪潮多年来在化学、物理、大气、生物等科研领域高性能集群技术应用的深刻理解,浪潮特别推出了“高单点配置、采用DDR InfiniBand计算存储网络、搭配高性能核心千兆以太监管调度网络、高效能电源(可达93%转换效率)、统一远程集群管理的,基于Intel 45nm 至强5500(Nehalem)处理器的天梭TS10000高性能集群解决方案”,由1台管理节点、1台双路登陆节点、2台网格节点、6台并行IO节点以及112台刀片计算节点构成。
集群结构图
基本配置包括:112个浪潮NX7140N计算刀片(双路四核至强5560 2.8GHz处理器,DDR3内存,3GB/core,1块64G SSD硬盘),总共有896个核;2套4路服器NF560D2胖节点,配置Xeon X7460,共48个内核;一套16.2T容量的LUSTRE并行文件系统,一套8T容量的存储系统;2个网格节点,1个登陆节点和管理节点,均采用2U机架服务器浪潮NF5220服务器(Xeon E5530四核,32GB DDR3内存、1+1冗余电源、2块146G SAS/5块300G SAS/6块450G SAS热插拔硬盘);高速互联网络环境(20Gbps InfiniBand计算网络 + 1000M 管理网络)。
浪潮高性能服务器产品部总经理刘军告诉记者,之所以推出上述系统配置,正是基于“性能、节能、智能”三方面的考虑:
浪潮高性能服务器产品部总经理刘军
首先,为了实现更高的总体性能,光是CPU算得快还不够,需要I/O跟上来,于是,选用了固态硬盘、LUSTRE并行文件系统、高速Infiniband网络等。值得一提是,这是首次在HPC上大规模使用固态硬盘,因为,对于那些需要快速读写大文件的应用,传统磁盘或网络读取方式都存在很大I/O瓶颈,而固态硬盘在读写速度上要快很多。
在节能方面,刀片服务器本身就是一种节能的设计,实现10万亿次计算能力只需要3个机柜,而且使用了转速效率高达93%的电源,让每一瓦特的电力都能够用到实处。
在智能方面,则体现在作业调度、用户管理、网络管理方面。浪潮部署了LSF作业调度系统,以提高对大规模作业管理的高效性与便捷性;浪潮TSMM2.0监控管理软件,则用于实现对整套系统的单一映射,为系统管理员提供了监控管理集群中各个节点的统一平台。
为了进一步提高加速比,英特尔在程序并行化方面提供了帮助。由对Intel平台优化的Intel C、C++、Fortran编译器、Intel MKL专用数学函数库、Intel VTune调优工具、Intel Trace analyzer、Trace Collector分析采集器,以及MPI、mpich、OpenMP、ACML、BLAS、LAPACK、Scalapack、FFT等构成集群并行应用环境。 #p#page_title#e#
另外,浪潮公司还赠送了一台浮点计算峰值性能为2万亿次/秒的GPU计算机,双方拟成立联合项目组,针对典型应用开展GPU平台的研究开发与推广。
谈及为什么选择至强5500平台,曾雉表示,选型的理由其实很简单。“对我们来说,由于项目很多,所以出结果的速度越快越好。我们在物理、化学和材料等领域比较测试了英特尔至强5500和其他厂商的产品,发现基于英特尔CPU的系统能够快50%左右。”
由于应用特性所限,对于超线程、虚拟化、万兆以太网等热门技术,在高性能计算行业却并不象在数据中心、商业计算领域那样备受青睐,不过也并非一无是处。刘军介绍说,虽然超线程技术对于大多数HPC应用不起作用,但对于区域海洋环流模式这种应用,却能将性能提升80%;由于HPC大多是CPU密集型应用,虚拟化也同样不受待见,但由于有些HPC软件只能运行在特定版本的操作系统上,这时,虚拟化就大有用武之地了;同样,大多数大规模高性能计算集群在互联上都选带宽更高、延迟更低的Infiniband,却不用万兆以太网,但对于某些应用如在某个Fluent测试中,万兆网效果就更好。