上万颗处理器的高性能计算集群如何管理
中石油东方地球物理公司研究院处理中心总工程师赖能和在演讲中谈到,过去3年里,由于中心计算系统规模增长很快,如何管理好、用好这些大机器已经成为焦点,目前东方公司已经开始利用数字化技术来实现有效的软硬件资源管理。
据了解,目前东方公司已经拥有规模达15000颗CPU的PC服务器集群,运算能力达到230万亿次/秒,占到了中石油总体集群CPU核数的的46.2%。这些整装、规模化的软硬件资源,为保证处理周期、及时提交成果,提供了很好的保障,但也带来管理上的难度,具体表现在四个方面:
1、机柜很多、节点多,坏了也不清楚,使用情况无法及时掌握。
2、存储阵列很多,无法做预防性维护,使用情况无法及时掌握。
3、数据交换机多,出现网络问题后很难判断在哪里出问题。
4、没有科学、合理的调度和管理手段。
赖能和谈到,随着计算系统规模从过去的百来十颗CPU扩展到现在的上万颗CPU,本身就需要有科学的管理办法和手段。“硬件水平高,应用效率低下,运营成本快速增长”是东方公司面临的另一个困扰。PC Cluster系统的计算理论峰值和实际应用效率和性能差距很大,比如CPU年平均利用率在运行叠前偏移时能达到约65-75%,而常规地震处理系统和调试目标线的集群利用率都很低,还不足20%。在运营成本方面,突出表现在近3年电费快速上升,仅2008年一年电费就达到千万元。
而且,随着计算机房规模扩大之后,生产与设备的安全问题也开始突出。目前,东方公司共拥有150多个PC Cluster机柜、100多个存储机柜、十几个机房、5个靠前处理机房,如此庞大的软硬件设备给生产和设备运行安全带来一系列的问题。因此,很有必要开发和采用先进、高效的数字化管理技术,实现软硬件资源的科学化管理。
为了解决上述问题,东方公司引入了数字化管理技术:
1.开发数字化管理软件平台,实现所有运行项目的数字化管理,可以对所有软硬件资源进行集中管理,也可以跟踪监控生产项目进度和使用的资源情况。
2.开发CPU资源管理平台,对PC Cluster机柜统一协调管理。无论是整个机房的CPU利用率和网络忙闲情况,还是某个机柜的CPU利用率和网络状态,都一目了然。
3.开发存储和网络管理软件,实现所有存储资源的远程集中监控,包括事件告警、性能、拓扑结构等。
4.开发UPS、空调、配电实时监控软硬件,确保设备安全。比如其位于北京的机房就可以对UPS、空调、配电开关、温湿度、空调漏水、视频录像、消防烟感、线缆温度等进行监测,同时设置了手机短信报警、远程权限管理、历史事件查询等功能。
赖能和在会上还展望了石油行业对高性能计算应用需求的发展趋势,主要体现在以下五个方面:
1.基于多核CPU技术的刀片式服务器已成为高性能计算发展趋势。
2.GPU技术为地球物理高密度运算和可视化处理带来新的机会,但GPU现在也面临很少软件支持的困境。
3.高密度多路服务器技术将成为地震综合解释研究新的应用平台。随着各ISV对Linux平台的支持,图形显卡技术的发展,4路/8路/16路多核处理器将为Landmark、叠前反演JASON完成大数据体大计算量的叠前反演(并行化处理)、地质综合解释任务等提供强有力的工具。比如英特尔明年将推出的8核心Nehalem-EX可以实现从4路到8路的灵活扩展,因此非常适合这种应用。 #p#page_title#e#
4.万兆以太网将给HPC的发展带来新的生机。目前千兆以太网在TOP500中占据56%的份额,随着10GigE网络技术快速发展,预计将逐步替代目前的千兆以太网。
5.高效能绿色数据中心建设成为新的热点。BGP开发和应用了自适应节能降耗管理软件,可以动态调整服务器状态。目前过试验节能效果达到了25-30%, 1万颗CPU一年至少可节约电费230-300万元。同时也在尝试应用许多新技术,如用虚拟化技术提供集中管理和移动办公,机房和机柜液体智能冷却(水冷)技术以及大型机房基础设施风道设计节能技术等。
6.复杂地震成像等技术的发展与应用将需要更多的CPU。随着算法精度逐渐提高,计算量和数据量越来越大,从而需要更多的CPU,系统管理的复杂度以及运营成本也会越来越高。预计未来3年中,东方公司地震数据处理CPU核数至少需要增加1.5倍,到2010年运算能力将达到380万亿次/秒