深度计算5大挑战 探索生命的奥秘
生命的奥秘是无穷的,在探索生命的过程中,强大的高性能计算机(HPC)也是必不可少的。随着基于基因、蛋白质和DNA的微观生命科学研究越深入、应用面越广,计算机和信息技术的作用也越大,许多最大规模的超级计算机和集群系统都应用于这一领域。从亲子鉴定到药物筛选再到H1N1流感疫苗研制等等,都离不开生命科学和背后的超级计算机。
据统计,生命科学领域的数据量平均每12个月就增加一倍,比摩尔定律,即计算性能每18个月增长一倍,还要快很多,这些数据量动辄都以TB来衡量。要处理如此海量的数据,往往需要动用每秒10万亿次乃至百万亿次的超级计算机集群,以及几十TB、甚至上千TB的存储系统。
更具挑战性的是,和天气预报、石油勘探等只有几种软件不同,生命科学的计算软件非常多,以中科院北京基因组研究所为例,就拥有100多种软件,这些软件对于计算机系统的要求各不相同,有的属于计算密集型、有的需要大内存,有的则需要进行频繁的磁盘读写或网络IO通信。用户又不可能为每一种软件去定制一套集群系统,现实情况往往要求集群系统可以同时能够支持多种计算软件。
浪潮集团高性能事业部总经理刘军谈到,生命科学计算独特的应用需求决定了,在该领域用户在进行高性能计算集群方案选型与测试、系统扩展、海量数据存储管理、大规模系统和作业管理、应用优化等方面面临诸多挑战。
挑战1:应用繁杂多样 哪种系统最适用?
由于软件众多,应用不一,因此需要根据用户主流应用软件的特征进行量身定制高性能计算系统架构和配置,而不是简单地采用通用的集群系统。中科院北京基因组研究所胡松年博士谈到,选择高性能计算机其实比选基因测序仪要复杂得多。北京基因组研究所每月单纯的数据产量会超过1TB,目前还无法保存图像文件,海量数据存储一直是难题,而且是软件多达100多种,加上很多用户自编的程序,对存储、IO、内存、并行化等方面都有不同的要求。
据英特尔中国公司高性能计算工程师乔楠介绍,为了帮助高性能计算用户方案选型,英特尔和浪潮一起花了大半年时间进行典型应用的性能特征分析,对包括BLAST、VASP、Gaussian 03、CPMD、Amber 10、Gromacs 4.0、Wien2k、Espresso等十几种软件,从影响节点内扩展性的“每核内存使用率和带宽”、影响节点间扩展性的磁盘IO和网络消息传递,影响软件优化潜力空间的CPU向量化、CPI等指标进行测试比较,以此来了解不同应用的关键特性。然后分析CPU、内存、磁盘、网络等硬件本身的特性,如在每核内存带宽上限方面,至强5400是1GB/s、至强5500则是4.5GB/s。再通过对软件应用特性和硬件特性进行对比,基本能确定适用的配置标准。比如BLAST软件对系统的IO要求很高,需要大内存,而Gromacs则MPI通信频繁,浮点运算量也大,但对内存的要求较小,又如基因拼接往往需要大内存的胖节点等等。
胡松年表示,基因组测序的复杂计算即便中科院超算中心、上海超算中心以及IBM、HP等国内的工程师都没有相关的经验,浪潮的前期扎实的测试为方案选型提供了很好的帮助。
挑战2:数据爆炸增长 系统未来如何扩展?
虽然目前我国在生物信息学研究、DNA测序能力方面已处于世界前列,但与国际上相比,对基因组数据的分析处理和利用能力,包括计算能力则存在较大差距。目前,国外分析生命科学的海量数据普遍会使用数百万亿次规模的超级计算机,而我国的许多科研机构的高性能计算规模一般为几万亿次。同时,为了满足未来数据量的爆炸增长,及随之而来的大规模处理能力和存储容量,要求系统有较高的可扩展性。
胡松年也谈到,现在基因组研究所10万亿次的计算机规模还远远不够,因为做一对染色体的基因测序,就需要十几天时间,会大大影响科研项目的进展。在存储方面,目前还只能保存测序文件,无法保证更大的图像文件。除了未来对现在系统进一步扩容之外,研究所也在尝试其他各种办法,比如,在浪潮的帮助下,将BLAST计算迁移至GPU平台上去;进行软件算法的优化,提高现有资源的利用率;加入中科院超级计算网格环境,从中科院超算中心租用计算存储资源,但又面临性能不够、作业协调管理、系统不匹配、TB级大数据量网络传输可靠性无法保证等现实难题;另外也关注云计算、网格等,但这些虚拟、远程计算在网络传输、资源管理、平台适应性方面也同样困难重重。 #p#page_title#e#