英特尔:至强+MIC,我们为HPC做好两手准备!
现在:至强生命力旺盛 GPU计算效率仍是瓶颈
本次参加会议的英特尔嘉宾包括英特尔公司高性能计算业务总经理 Richard Dracott,英特尔公司新任高性能计算业务总经理Rajeeb Hazra和英特尔数据中心事业部中国及亚太区业务总监Jason Fedder。 Richard Dracott是我们的老朋友了,而这次记者见面会也由他主讲。
英特尔公司高性能计算业务总经理 Richard Dracott做主讲,介绍英特尔当前在HPC领域的态势与未来的HPC发展战略
与会的英特尔嘉宾(左起):英特尔公司新任高性能计算业务总经理Rajeeb Hazra,英特尔公司高性能计算业务总经理 Richard Dracott, 英特尔数据中心事业部中国及亚太区业务总监Jason Fedder
英特尔处理器平台在当前HPC TOP500中的占有比例已经超过了80%
Richard Dracott首先秀出几个数据:第一,最新TOP500中基于英特尔架构的上榜系统为406套,基于至强5500的上榜系统为184套,排名前十的上榜系统中有4套是基于英特尔处理器。全新的产品今年发布的新产品,5600七套,7500两套,Nehalem架构的5500有182套。第二,每年TOP500都会更新,今年所有的更新系统里93%都是I/A架构,中国24套系统入围TOP500,23套都是英特尔的。第三,中国的快速进展,在Total里排名第二,仅次于美国。
虽然目前TOP500中的TOP10中还有6套不是基于英特尔的,比如AMD或是IBM的Cell系统,但Richard Dracott对此并不担心,他表示,TOP500有一个特点,排名前十的系统项目周期都是4-5年,任何新产品最终显示到TOP10里面的系统需要一个周期,随着Nehalem架构的出现,首先看到的是底下的这些系统大规模的都在采用Nehalem,越来越多看到排名靠前的系统采用Nehalem,是因为这个项目4-5年时间周期的原因。Rajeeb Hazra则补充到,因为现在排名靠前的系统趋势都是从过去只跑一个应用,负载一个应用,到现在越来越多负载多种应用。我认为I/A架构的核心优势未来会呈上升趋势在TOP的系统里,因为I/A系统跨多个应用程序的能力非常强,服务于多个不同应用特征程序能力非常强。随着越大的系统服务于越多的应用程序,I/A系统会成长得越来越快。而Jason Fedder则认为,这两年的趋势,中国在整个TOP500里成长很快,中国一定是TOP500里面的后续力量。政府在这几年的投入也很大,未来也会看到政府的这些大项目里,会采用I/A的技术越来越多,服务于中国高性能计算领域的成长。
在顶级系统中,英特尔平台的表现依然不俗
如果按去年6月、11月以及今年6月TOP500榜单会看到英特尔的新架构在榜单里接受程度增长非常快,从7%-19%到现在的39%。如果你去看TOP500的高端,能看到哪个厂商领先的位置。今天在整个TOP500里面,前十名当中有四套是英特尔的,同时其中两套都采用了5600,目前在TOP500里排第二名的深圳超算中心就是其中一台。在前30里面一共有七套新的系统,今年更新的系统,6套都是英特尔的。同时在整个中国的TOP100里面,去年11月份发布,英特尔占77%,对比2007年,英特尔只占有50%多,这是巨大的跨越。
不过在HPC领域,目前不能回避的一个话题就是GPU的应用,随着相关GPU的编程环境不断改善,GPU的大规模数量核心的优势也在不断显现,也因此给英特尔造成了很大的压力,对此英特尔如何应对呢?
英特尔强调,在当前HPC系统中,基于全CPU架构的系统仍然保持着最高的效率,而GPU即使是采用互联效率最高的Infiniband,综合效率也不及采用千兆网的系统,这是因为GPU+CPU系统是一个异构平台,异构的平台客户一定要付出,因为是两套完全不同的编程模型
从整个TOP500来看,Richard Dracott强调,除了看理论峰值之外都会看Linpack的效率,Linpack效率来说其实是把英特尔排在外面,英特尔在套装里,数量在下降,尤其是高端系统都是以及其他的专有架构。从上面的数据来看,基于Nehalem架构的效率是接近88%甚至达到90%,是整个系统里最高的,采用GPGPU一下下滑到42%。如果要达到同样FLOPS,用GPGPU的系统付出两倍才追上I/A的系统。抛除GPGPU和Nehalem其他系统,效率最高的达到78%,I/A架构从效率角度来说最高,除了Linpack之外,对应用也是同样的道理。
总结英特尔当前在HPC的现状与挑战,Richard Dracott指出了英特尔的核心追求,那就是以真实的应用性能为先。“我认为首先Nehalem的架构已经有几代产品,同时Nehalem架构根本没有在Linpack上有一个很大的性能提升,这我是不能的追求目标,我们追求的真实应用程序性能提升。真实的应用程序翻了两到三倍,因为Linpack在几代CPU之间没有很大的提升,因为那不是我们的目标。核数增加不是性能增加的唯一途径,HPC应用程序性能提升非常多,2-3倍。今天整个微架构里面已经在40%的预测里。第一,核数不是左右性能的唯一途径。第二,并不是所有的核都是一样的,英特尔也有众核的架构。第三,GPGPU今天市场中的很多比较是没有意义的,拿GPGPU跟英特尔的12核里面的1个核比较没有任何意义,拿系统级的比较才是真正有意义的!”
而在至强新品方面,Nehalem家族给出了满意的答卷。Richard Dracott表示,上半年我们很繁忙发布了很多产品,7500和5600对HPC是最重要的。大家都知道我们发布7500之后非常适合超级节点。在高性能计算里面,7项领域里面的数据集,包括生命科学里的基因比对,包括能源行业里的油层模拟都有一个共同特点,数据集比较大,处理这些数据集比较大的高性能计算时7500是最佳的选择,因为内存带宽和内存容量。包括浪潮在内的很多厂商都发布了超级节点机,浪潮有8路的,SGI甚至可以做到256路。5600对比5500不是非常大的性能跨越,采用了同样架构,制程工艺往前走了,有非常合理的性能提升,从20%-60%不等。#p#page_title#e#
未来:至强继续演进 MIC家族强力加盟
至强家族的继续发展是不可阻挡的,而它的下一站就是自Nehalem之后的新一代的架构Sandy Bridge,Richard Dracott指出,Sandy Bridge微架构变化比较大,对比今天的5600会有一个性能最大的飞跃。而英特尔也在超算大会上做了一个承诺,每两年当微架构变化的时候保证新一代微架构对比前一代微架构,单位时钟周期的浮点操作会翻倍,不光是在Sandy Bridge在未来也会延续这个承诺,这个对高性能计算很重要,这是凭借AVX指令集。
Sandy Bridge的AVX指令集与全新的微架构是它的亮点,其表现非常令人期待
而在至强之外,英特尔也看到了GPU那种大规模核心并行处理的优势,因此在2010年超算大会上5月31日宣布的集成众核架构(MIC)也让世人看到了英特尔的另一个发展战略——Richard Dracott解释到,这对于英特尔来说,我们的观点是会去覆盖一部分超级并行的程序,仅仅是一部分,至强仍然会覆盖绝大多数的高性能计算程序,这是一个牺牲。把几个大核牺牲掉,用来做多个小核,这就是一种牺牲的途径,最终是选用至强还是选用集成众核的架构完全取决于应用程序的特征。
MIC的第一个试验性产品——Knights Ferry的单精度处理性能已经达到了500GFLOPS
MIC的第一个面向客户的成果就是在今年超算大会上发布的Knights Ferry。Richard Dracott表示, 这是我们宣布的软件开发平台,今天发一部分给少量客户,今年到明年会有一些种子计划给核心客户,所有这些小核仍然是I/A核,除了这个硬件本身32个核、1.2G对高度并行的应用程序适合之外,最关键在于软件,我们有英特尔的高性能计算工具,跟这个卡一起会交回客户。高性能计算工具英特尔的目标,无论对至强还是一个集成众核的架构是一套工具,协调多核以及众核的任务,只有软件这部分才是我们的核心价值,因为我们会帮助客户用集成众核的产品去适应高度并行的应用,但是付出极少的代价在软件方面。
Knights Ferry的基本规格,这也是将来真正商品化时的起点
Richard Dracott描述到,“首先,Knights的家族起始的形态都是PCIE卡,定位是协处理器。从编程角度来说,我们根本就不是GPGPU,不用把产品看成是一块显卡,看成普通至强这种普通处理器来做编程,这是一个根本上的差别。核心的核心是——我们保证不管是今天的多核还是未来的众核,大家工作在一起编程是非常容易的,工作是非常简单的。所以下面这张图中,列在右边的这些是今天我们为至强提供所有高性能计算工具,不管是图中在这条线的左边都是至强处理器,还是右边至强加PCIE的众核,还是至强加一个放在Socket上的众核,甚至一个至强加一个众核的产品放在我们的至强处理器里面,未来今后这个硬件的形态怎样变,唯一不变的一套工具会覆盖所有的多核以及众核的架构。最后的观点,我们只有一套编程的架构,一套编程的工具,但是可以适应不同的体系结构的产品。”
英特尔希望MIC的加盟,可以大大增强英特尔IA架构在HPC方面的实力,全部基于IA编程架构是MIC众核产品与传统GPU的最大不同之处,这意味着编程人员无需掌握新的编辑语言,即可在原有的编程环境下享受众核的好处,当然,为此英特尔也正在积极开发相应的编程工具,进一步完善众核+至强平台的编程环境,未来HPC应用可以自如的根据算法的类型来调用相应的处理设备(至强或MIC)
但是,说到编译器,就存在一个效率的问题,而这也是部分记者所关心的话题,在未来MIC与至强混载,那么对于编译器以及最终的HPC运算效率会有怎样的影响呢?又将如何保持现有的高效率呢?
Rajeeb Hazra就此表示先要纠正一点——关于效率的问题,我认为在高性能计算里面一旦谈效率是谈系统效率,编译器是其中很小一部分,这是TOP500里面高于88%的系统效率来源于整个系统的设计的原因,编译器只是其中一环。我们的目标就是一套工具,一套编译器和运行池覆盖不同架构的产品,这的确是我们现在的一个目标。
不管是多核还是众核,最终同样的一个编译器是在一个大的编译环境下,但绝不意味着最终这个编译器编译出来的机器码在多核和众核上一样,完全不一样,简单说编译器是智能的,智能到客户的程序过来之后会针对至强这部分和针对集成众核这部分分别编译适合自己的代码执行,编译器智能到什么样的程序在什么的地方运行,是在至强上还是在众核上,编译出来的代码肯定不一样,只是编译环境是一套。作为结论,编程人还是非常中意的,编程人编的时候只看到前面就是一个多核的x86系统,编完之后是由编译器自己分辨哪些部分放到处理器,哪些部分放到集成众核再编译,更多的工作扔给编译器,对编程人员没有什么太大的变化,就认为自己面对的是多核的x86系统。
回到Knights Ferry的话题,Richard Dracott表示,我们最早采用产品欧洲客户,CERN是做核能源的研究,核心有一个Trigger的程序采用的是我们Knights Ferry的产品。对于客户来讲,所谓移植这个程序不叫移植,其实都是I/A核,用我们软件工具几天时间就把核心的程序已经放到Knights Ferry上面,对比其他竞争对手的产品会强很多。大家看到Knights Ferry仅仅是一个研发平台,软件测试的研发平台。到了Knights Corner出厂的产品线是22纳米,大于50个核,未来会有相应的产品跟进。
对于Knights Ferry在中国的试用,英特尔数据中心事业部中国及亚太区业务总监Jason Fedder表示,Knights Ferry在中国的种子计划一定有,现在在进行中,更多的细节在四季度会释放。之所以中国客户非常重视。原因很简单,TOP500里无论政府还是企业的增长都很快,对于我们来说,英特尔中国来说,目的就是要让这些有效的工具,要让中国的客户在这条船上上得越早越好,让他们对未来的把握越早越好,这是我的目标。
未来Knights家族真正的商品化成员就是Knights Corner(英特尔还没有官方的中文名称,所以只以英文为准),22nm工艺,50个IA核心,从生产工艺上我们就能推断出它的上市日期将在2011年年底
对于一年以后才会有MIC的商业产品上市,而在这期间会不会被其他厂商抢得市场先机,确立市场标准的问题,Richard Dracott表示 第一,我们今天的Nehalem以及未来都是面向于真实的高性能计算应用程序,这是英特尔的宗旨,我对今天Nehalem的性能表现还是非常有信心。第二,从我的从业经验来看,关于加速器大家关心不是一两年,过去三十年都在关心。不论是教育行业还是科研行业都在试,但是从我的角度来看,只有看到一次加速器成功就是加速器最终在CPU中。加速器最终成功在过去30年中就是集成到了处理器里面,凡是没有在处理器里面的,我看到的成功寥寥可数。第三,最重要的是客户不光要性能,客户还要简易的编程工具、简易的编程模式。客户一定会算帐,编程模式带来的新的负担是否足够让我有动力转到全新的编程架构上面去。第四,今天GPGPU很多比对是不真实的,几十倍的性能最后在客户那边看到的就是几倍而已。
但另一个问题是,众所周知,Knights家族是延续Larrabee的开发计划,2009年英特尔前高级副总曾经展示过Larrabee,但最后它被取消了,众多关注英特尔的人怎样相信英特尔的Knights Corner会延续Larrabee,而不是它的第二,走向失败?
对此Rajeeb Hazra回应道,首先,回到无论是今天的Knights Ferry还是过去的Larrabee,英特尔在七年前开始做众核架构的研发,很早就在做众核的研发。我想强调一个观点,当你听到Larrabee的时候很多人会反映到显卡,实际上英特尔在七年前做众核研究的时候想的很清楚众核的架构不光为显卡做,显卡仅仅是其中一部分市场,是显卡以及高性能计算以及超级并行的工作负载,这是七年前英特尔定下的目标。当我们几年前听到Larrabee和显卡的时候,英特尔是针对那个时间段,针对整个外部的市场情况做出的业务策略,把显卡作为第一个产品是基于外围的商业环境作出的。今天英特尔说得很清楚,这个Knights的家族跟Larrabee很大的不同,Knights就是为高性能计算做的,或者Knights就是为高性能计算或者高度并行化的工作负载服务。因为七年前这个架构的研发不仅局限于显卡,不仅局限于高性能计算,而今天我们作出的业务决定是要未来做的Knights 家族是为功能计算服务的。归根到底,至强仍然是我们负担绝大多数高性能计算应用非常重要的架构,而至于Knights家族的承诺,英特尔说了不光是产品,同时是软件工具,这两块都有承诺。
回到中国市场,英特尔也做出了展望,Jason Fedder表示,关于中国市场我看到了两个比较明显的差别,一个是在商用的高性能计算,主要也是以制造和石油为主。真正在使用这种商务高性能计算里面,我认为客户衡量系统的方式方法对比政府和科研行业是完全不同的,商用高性能计算客户更加务实。我对于高性能计算新产品的采用相对保守。对于政府和科研机构,这两年也会看到中国的政府投资非常大,增长也非常快。从这个角度来说,政府也好,科研机构投资也好,一套大系统需要运行很多种不同的应用程序,而且他们对于性能的追求的确是非常激进。在英特尔跟他们合作的过程中,他们也会给我们一些挑战,在未来政府、科研机构要解决更复杂问题的系统里,他们需要我们英特尔提供更强的产品,他们在拉动对我们英特尔产品更强的需求。总结起来,政府和科研行业未来会看到持续的特征,而商用方面更加的保守一点。
最后,Richard Dracott总结到,第一,摩尔定律还会继续前行,活得也很好。真正的结果表现,406套系统在TOP500里都是英特尔的,同时Sandy Bridge和AVX让我们在浮点计算里两年的承诺继续前行。第二,我们跟中国很多高性能计算合作很紧密。我们真正在超算里面的投资,众核的产品以及支持异构平台的软件工具最后Knights 整个家族的协处理器,有一点不变,至强仍然是我们性整个绝大多数高性能计算程序的产品选择!