NVIDIA副总Walter谈专业卡技术及行业客户应用状况
NVIDIA Quadro 专业显卡推动了索尼电影公司所属的Imageworks公司在最新的所有CG动作电影中的创意工作。
如何能够运用技术手段将已有1200年历史的古老史诗中描述的英雄、妖怪和巨龙再现在人们的眼前?这个问题就是导演Robert Zemeckis与索尼电影公司所属的Imageworks公司(索尼Imageworks)在将《Beowulf(战狼)》的故事搬上银幕的过程中所面临的挑战。
Zemeckis 与索尼Imageworks的工作团队,使用了曾在《The Polar Express(极地特快)》中首次使用,并在《Monster House(怪兽屋)》中再次使用的“表演捕捉技术”,来讲述英雄Beowulf(由Ray Winstone饰演)的故事。在这个故事中,Beowulf 来到Hrothgar国王(Anthony Hopkins 先生)的议事大厅,杀死长期以来一直为Hrothgar的王国制造苦难和灾难的妖怪 Grendel(Crispin Glover)。然而,在处决Grendel之后, Beowulf 就必须面对Grendel的母亲(Angelina Jolie)因为丧子之痛而必将采取的疯狂复仇行动。这个故事改编自被认为是英国文学首部巨著的恢宏史诗。
“表演捕捉”运用了演员的身体运动和面部表情的相关追踪技术,然后将收集到的相关数据用于根据演员的表演创建动画场景。 影片《Beowulf(战狼)》 的超常规模是这部作品的制作过程中遭遇的一个独特挑战。有些场景的人物角色达到了70多个,每个演员的动作都必须进行精准捕捉、跟踪,并且需要将其放置融入到动画角色的身上。然后再应用纹理和照明效果,从而在摄影机布局过程中能够让导演实现实时互动。
这种新的预览技术增加了额外的相关挑战。传统的预览技术使用简单的、非纹理性几何学来设置或计划摄影机、演员和场景中动作的所处位置。但是对于《Beowulf(战狼)》这部影片来说,电影制作人员和索尼Imageworks的工作团队需要完成更多的工作。他们需要一种能够表明情绪、照明细节和场景基调的预览程序。 因此,就需要实现和达到与顶级视频游戏效果相类似的较高画面质量,而找到能够应对制作出实时高质量画面挑战的显卡产品才是解决这个问题的诀窍。《Beowulf(战狼)》的工作团队在NVIDIA的 Quadro专业显卡产品家族中找到了他们理想的产品,这种显卡可以提供对多个角色进行纹理和照明实时渲染所需的处理动力。凭借Quadro™解决方案,影片导演可在调度、拍摄和更改表演的实时进程中,获得自己需要的及时性反馈。
“Quadro显卡具备生产我们在表演捕捉集成和摄影机布局过程中所需要的实时场景能力。” 《Beowulf(战狼)》的动画技术主管——Corey Turner 这样说道。“我们有些场景非常复杂,有时需要对70多个角色的动作进行实时编辑和渲染, NVIDIA赋予了我们实时展示导演想法的能力。”
通过将Quadro专业图形显卡集成到他们创意作品之中,索尼Imageworks的工作团队实现了对复杂性很高的动作场景的实时排列和渲染。工作人员们遇到的最为重大的挑战之一就是Grendel在Hrothgar的议事大厅遭到攻击的场景。这个场景的出镜角色有70多个,还要由一台移动摄影机在大厅内拍摄整个过程,Zemeckis在所有数据都已在实时3D 场景中进行集成之后,决定了摄影机的拍摄位置以及表演动作如何做出。尽管在所有表演中,最终只有一小部分可以在摄像机的拍摄范围内,不过,Quadro显卡能够让导演在决定最终拍摄机位之前,对所有的角色进行排列布局和渲染操作。
《Beowulf(战狼)》这部影片的制作过程一直在挑战Quadro显卡的性能表现极限 。最具挑战性的拍摄之一是一段107秒的场景拍摄过程,在这个场景中,将近60个角色开始的时候在议事大厅跳舞,然后,这些角色的活动地点又转移到了议事大厅的房顶上面 ,随后他们又穿过了四英里的乡间小路,最后,拍摄工作在Grendel的洞穴中结束。由于需要对演员、道具进行实时的完全照明和纹理渲染,所以,该项拍摄工作分为三个实时预览片段进行,然后再共同进行回放编辑工作。然而,Zemeckis仍然能够将其完美地进行视觉演绎和展示,最后的成片中,整个拍摄工作看上去非常流畅完整、无懈可击。
#p#page_title#e#
第2页:NVIDIA专业图形解决方案高端论坛——Walter演讲(上)
时 间:2008年1月17日
地 点:北京丽思卡尔顿酒店酒店 大宴会厅
Walter Mundt-Blum:首先欢迎大家来参加我们的论坛,同时我也非常感谢大家对我们的产品特别是专业产品感兴趣。我想向大家解释一下我们公司是做什么的,有一些产品可能大家以前不知道,其实我们还做这个。我相信中国用户对我们公司是非常了解的,我们有很多游戏方面的产品,甚至很多人给我们发来自己创作的NVIDIA相关艺术产品,包括照片等等的东西,比如说有人在雪上做了一个我们的LOGO。感谢他们对NVIDIA公司的巨大热情。最有意思的是我们可以看这个小孩子的脸,这是来自欧洲的一张照片,他们的父母为问我们是不是可以把这个小姑娘起名为NVIDIA呢?我们对此没有任何否定意见,还有其他的照片,比如说西瓜上有我们的LOGO等等。
很多人都知道我们在游戏领域做出了很大的贡献。那现在我们讲一下我们在专业领域做哪些东西。我们这次过来主要希望向大家介绍两个产品:一个是Tesla和CUDA,是我们公司推出的高性能计算的产品;另外一个是Quadro,我会来主讲这方面的技术产品。
『NVIDIA专业解决方案事业部全球销售副总裁Walter先生向参会媒体朋友介绍CUDA及专业显卡产品』
在Tesla和CUDA这方面中,我们的GPU不在是负责图形方面的工作,而是用在视觉计算。而在面向图形方面的专业解决方案中,我们也不仅有板卡还有系统。比如说桌面系统,还有服务器的环境等等。换句话说,NVIDIA可以做很大的系统,不仅仅是一种普通的显卡。
通过这张图表我们可以看到,在工作站的整个发展过程当中,我们所发售的GPU的数量比其他公司的产品总和还要多。同时这里有一个趋势图,2007年大家可以看到这是第三季度,而到2007年第四季度末我们在专业市场80%至85%的市场份额。如果把所有的产品加起来超过了所有其他竞争对手同类产品的总和,从这点来说,我们取得了巨大的成就。当然这些成就的得来,也要非常感谢中国的市场,因为尽管我们进入中国时间非常短,在专业产品上仅仅两年时间,我们已经取得了很大的进步。但是在国内杰出的艺术创作中,90%都用到了NVIDIA GPU的设计。另外,我们的应用领域也非常多,比如像空中客车A380,在我接下来的DCC演讲部分当中可以给大家看到,空中客车有一个超大的屏幕,是1:1的比例制作的。人们可以时时看到到底内部的设计是什么样,他们甚至可以走进去,而这就要归功于我们的Quadro解决方案。还有兰博基尼,还有阿迪达斯,可以让他们看到这个鞋设计出来到底是什么样子,产生时时的图形。还有比如像欧宝,他们有汽车使用系统,通过这个系统欧宝可以提供比之前多27%的设计样式。一年前,他们本来打算只有200个终端的建设,而现在有600个。保时捷也采用我们的产品进行设计,还有其他公司有类似的做法,所以大家会看到越来越多的公司会用我们的产品做汽车的配置。
我们这个技术不仅仅是用于制造业,而且也非常重要的在电视行业,比如说我们有一个SDI的产品。大家看一下这边的奥林匹克的滑冰,大家可以看到,实际上背后这个东西是由电脑计算机时时制作出来的,大家可以看到随着这个人的出现,相应的计算机技术制作出来会变化。而正因为如此,我们获得了艾美奖,这是我们的CEO黄仁勋先生领取艾美奖。还有在中国我们也知道有一个纪录片叫《圆明园》,这是一个数字纪录片,在中国是最大的一部数字纪录片。也许我们可以看这个记录片的一些视频。
所有这些影像都是数字制作的,不是真的东西,我也非常高兴请到了《圆明园》的导演金先生,下面我们请他来向我们解释一下,他们是如何使用NVIDIA技术制作这么好的纪录片。
金铁木:各位大家好!《圆明园》这部分电影大概有人看过,在北京播了很长时间,其实从艺术的角度来讲电影,电影需要技术的支持,我其实在技术方面属于门外汉,非常不懂。但是在中国所有导演中,我一直致力于数字技术的,换句话说,我做的影片,有一大部分是要再现历史,重现历史,《圆明园》就是这样的一部电影,没有数字技术就没有《圆明园》。
『电影《圆明园》导演金铁木先生介绍电影编辑中采用NVIDIA专业显卡的成功经历』
在电影中,我们最基本的要求在图象处理方面我们而需要2K的技术,现在我们在做4K的电影,明年我们就要做6K的电影,现在我们在做奥运会的开幕式及我们在多媒体演示方面有8K的要求,这样的要求对专业的图形处理技术要求高,越来越高。所以,我觉得有了像NVIDIA这样的公司,有了这样的技术,有了这样的专业的团队致力于这方面的开发,我们在专业的电影影像方面才有可能。我们运算的能量,运算最后达到的效果,才会达到我们所需要的,因为电影最后都是要给观众看的,电影是NVIDIA这种图形处理技术是通向观众的桥梁。我其实不是非常了解,我做技术的团队告诉我,说NVIDIA是业界最好的他们是做的最大的。希望NVIDIA做的越来越好,我们讲做6K、8K电影的时候,希望NVIDIA的技术会让我们更轻松。谢谢大家!
Walter Mundt-Blum:谢谢您,虽然我不能理解你说的东西,可以说是什么也不懂,但是我相信我们合作的还是非常不错,谢谢您!除了电影之外,我们同时也在垂直市场方面也非常知名,其中有一个就是在军事技术方面,航空技术方面的GPU的技术。比如说向模拟系统,还有战斗机,还有头盔上面的摄像头等等,我们的GPU也在用在这里面。
如果在设计产品,基本上希望在进行生产之前,就知道到底它看上去怎么样,它的功能怎么样。如果不能模拟就会浪费很多的时间和资源,这里有四个小例子。可以给大家一些印象我们到底跟我们的合作伙伴做哪些东西。这是空中客车,这是3D的虚拟化空间,到处都是投影机,上面、下面、后面都是投影机,这些投影机会投出3D的影像,你需要戴上3D的眼镜进这个房间,你感觉在这个房间里面,空中客车就设计了这样一个空间,他的空间非常大。比如向新加坡航空公司,或者汉莎,他们就会到空中客车总部访问,这时候空中客车就会向这些经理人来展示和模拟新产品。
保时捷也在采用我们的技术,例如用尾灯的设计,保时捷用了RTT的产品,其中用到了我们的GPU,这是尾灯的设计。由于他们不希望进行实物模型的制作,通过这种模拟就省了他们50万美元的设计经费。因为往往他们希望需要做4—5个不同的设计,以往他们需要实物模型,而现在已经彻底数字化了。
还有大众,大家可能也知道,上海大众在国内的知名度,大众有超大的屏幕,不仅仅是来模拟设计,同时还可以来模拟驾驶,比如说在设备和人之间的距离是多少,甚至是生产也可以进行模拟。右下角这张图,人们正在模拟制造一些维修,比如说你把这个车拿过来,发动机在里面,而你在进行维修的时候,你要换引擎,可能需要保证不需要动其他的东西,就可以来对它进行更换等等。所以,人们在用我们的技术时更快的可以投入市场,并且也可以节省他们的资金。
在不久的将来,汽车导航系统不仅能帮他们导航,要到达他们想要到的目的地,同时也可以帮助人们,因为系统可以看,同时可以识别东西,待会儿Andy Keane会讲到GPU计算,会讲到GPU不仅仅是帮助显示还有其它的用途。在这里我们可以看到,我们在车里装了GPU,你可以看到左边有两张图,一张是车前面真正的机井,另外可以看到下面西门子授权的一个设计,前面装了一个摄像机,真正来捕捉这些图像,通过我们的导航系统,在屏幕上放一个箭头,这样就知道朝着前头走。在右上角有仪表盘的设计,就是说在这不再是一种模拟的仪表盘,而是采用了全新的技术。这个数字仪表盘采用了比较高的分辨率,大概有1000—2000像素。而且你可以不断地把功能来回的调换,有的时候你可以调成仪表,同时想换的时候,比如说想看一下你们前面摄像机设一些镜头和图片的话可以调换。
#p#page_title#e#
第3页:NVIDIA专业图形解决方案高端论坛——Walter演讲(下)
看下面这张图上你可以看到这是一个新的技术,这个技术也是在美国开发的,这个技术能够帮助我们捕捉一些图像,之后把图像改成数码的,它甚至能够做一些警报系统,假设颜色变红的话,你可以看到前面可能有一些障碍物越来越近了,总的来说是一个比较好的预警系统。
我们在车里面做一些GPU,不仅在设计上,还有内饰也会应用到GPU的技术。另外跟图形无关的高性能计算领域,GPU也有比较好的应用,接下来我给大家介绍一下我们在这方面的市场情况。
这张图能够让大家非常容易的理解,可以看到运输界的高速提升,或者说吞吐量的高速提升,你可以看一下,之前大家使用航船来进行交通,就是蓝色线表现的阶段,然后开始使用其他的交通工具。对于航船的速度提升是非常缓慢的,不是说一下子提升起来。你可以做一个航船的运输之后,两个三个甚至可以加两个…,太平洋、大西洋的运输。但是蒸汽轮船的发明将跨大西洋航行时间减少到了两个星期,最短的时间可以接近一个星期。到了飞机被发明的时候,跨大西洋的航行在画下了一个篇章。
对数据处理能力来说,你只用CPU来做数据处理可以看到,它的浮点的增长数比较点,所以人们之前用CPU进行计算的时候,在绝对计算速度而言并不是很好,而当人们使用CPU做其他的工作,并没有真正用于计算。但是随着时间的流失,GPU的运算功能被发掘出来,比如说运用化学领域,机损化学领域,以前需要花6天的时间做一些数据处理,现在不到30分钟就可以处理了。对于神经建模来说,如果只用CPU进行出具处理得话,大概需要花2.7天的时间,现在用GPU只需要30分钟。对于无线射频模拟来说,以前要8小时的时间做模拟,模拟无线射频,现在只需要13分钟都不到的时间模拟。你可以看到浮点增长的速度随着GPU技术的出现得到了很大的改进。
我们不仅仅把这个技术应用于工业领域,包括设计车内的内饰,同时我们也做一些医学上的应用。
你可以看到这张图,大家看到的是超声波对婴儿胚胎的扫描,现在的扫描结果中我看不清也看不明白孩子在哪儿,如果你用我们的技术,可以真正的重现3D、2D的图形,通过扫描就可以实现,这样你可以看到体内的婴儿可以长什么样子。你可以看到,通过GPU技术,你可以做3D、2D的转换。我们在医学领域可以在很多领域看到GPU的使用,不仅是图像的使用,包括计算。
地质学家也在这个领域进行了一些分析,因为他们要处理得数据非常大,甚至有的时候会使用T字节级的数据进行分析,看一下对石油的勘探来说,他们目前在使用我们的技术,比如说可以看到,你们通过对地面的一些探测的显示,可以看到不同的层,搜集不同的数据,数据量比较大,假设用CPU计算可以花几个月的时间处理这些数据,但是通过使用GPU,实际上速度要提高17—20倍左右,假设你用一个GPU的话,可能得使用20个CPU,所以GPU的功能要更为强大,尤其对数据处理来说。如果你要处理大量的数据,GPU可能是你选择的技术。
在金融领域也是如此,在股票交易上GPU计算技术经常会被使用,比如说人们要进行金融风险的分析,这个时候可以用CPU来做一些分析,在GPU上面做数据分析,比如说每一次在GPU可以做15万字的齐全模拟,非常精准和高效。
另外一个非常有趣的领域就是GPU能够使机器有一些认知能力,比如说能看能闻,像狗能够闻到癌细胞一样。我们在美国也和一家合资公司进行合作,做了一些分析,而且记录出电脑的反应情况。同时他们也开始对嗅觉进行一些分析和模拟,模拟大脑的反映,他们用GPU的技术来教电脑来探来闻,所以我想在几年之后我们将会看到他们的一些研究和制作成果。也就是说电脑可以真正来闻一些东西。
我们怎么样能够跟上最新的技术呢?为什么要将Quadro产品应用在这些领域呢?Quadro实际上在设计产品方面有一些独特的优势满足我们客户的有一些独特需求,我们需要对他们的需求做定制的一些设计。比如像空客,还有一些其他的航空公司,他们在不同的电脑中使用同步锁向,比如说SDI可以应用电脑影片制作,Quadro Plex可以在PC上进行高性能的GPU的应用,我们希望能够覆盖一些城市设计的需求。就性能而言,我们优化了Quadro,假设你看一下芯片,Quadro的芯片和其它GeForce的芯片基本上类似,但是在内部有更多的晶体管,这样你可以对Quadro做一些简单的设计,把一些高级的原件进行实效分析,和专业的应用相比,Quadro的性能比较好,而且更为稳定一些。
另外我们还和一些公司合作,来引证和验证相关的产品,比如说Autodesk,Adobe,这些公司对我们的驱动进行测试,同时给我们驱动和硬件进行认证,但是对GeForce来说不太了解,所以不能进行认证和验证,他们的生产周期比较长,所以在Quadro中整个产品组合比较多,GeForce主要使用娱乐领域,速度是非常重要的,Quadro和它不一样,GeForce速度有10%的变化,但是Quadro在启动24小时内随着时间功能会增加。
看一下GPU,比较一下Quadro和GeForce的性能比较和基本设计上的区别,你可以看到从这个垂直应用角度来说,Quadro的性能是GeForce的5倍,尤其是它通过Shader Model 4.0、OpenGL和DX10,进行了性能加速的提高,我们更多关注垂直市场,我们也和很多的公司客户进行联系,包括国内的一些大的公司,比如说浦东发展建设银行,发展建设公司等等。还有很多大的客户,我们也征求他们的需求,比如说你们未来6个月、12个月、24个月的需求是什么,我们把这些信息搜集起来给我们的设计人员作为参考。之后我们需要12—18个月的时间进行设计这些产品,目前客户有很多问题,我们可以帮他们解决这些问题,比如说给他们提供我们的独立软件供应商还有我们的硬件合作商,包括联想、HP,和他们一起帮助我们的客户解决问题。
同时,我们也在教育我们的客户,希望今年我们能够把客户教育的体系扩展到中国,我们通过垂直市场,包括奥林巴斯,还有和其他的一些合作伙伴建立合作伙伴关系,同时也通过一些圆桌会议进行讨论,比如去年在德国大概有140名非常关键的IT人物在圆桌会议上跟我们共享了一些技术信息。
眼见为实,接下来我给大家放两段小片子,给大家介绍一下目前通过我们的技术能够做一些什么样的事情。第一个关于实时光线追踪的,在一年前需要200个或者是400个CPU做实时光线追踪,现在只用一个系统就可以做。比如说看一下(兰博基尼)的例子,这是一个(兰博基尼)的车,这里面有反光镜的影子,但是没有真正的反射,但是你可以看到电脑在做一些计算,看一看反射的结果,你可以看到它从反光镜里面做一些反射的计算,同时也做一系列的相关的计算,所以你可以看到以实时的方式能够看到这些光线。这是通过一些追踪的技术在进行改进,你可以看尾灯,保时捷当时凭借对实时的追踪,希望能够对尾灯进行光线追踪,现在你可以通过这个技术,可以看到实时的尾灯光线追踪,这个地方也一样,这种实时的追踪能够给你一种更好的感知,在模拟过程中能够更好的了解产品设计的结果是什么样。
接下来就是一种提升的技术,这个提升的技术是什么,由于我有一个视频,同时又一些3D的技术在一起,我们对RTT也做了一些研究,就是对实际的车轮的轮胎设计做了一些研究。你可以看到,这是摄像机把整个轮胎拍摄下来,在里面你可以看到有一些标志点,这些标志点被电脑使用。这个轮胎是真的,但是里面的轮毂是一个3D的制作,大家可以看到里面的反射,外面是真的,但是里面是3D的,这样大家可以看到实时的轮胎在转动,到底设计在里面是怎么反映的。这个看上去已经不错了,但是我们再加上第二个像机在这里,它可以由计算机来反映的是一个光源在上面反射的状况,所以大家可以看到,实际上我们公司进入的领域是很多人不知道我们所在的领域,很多人只知道我们在游戏方面做的非常不错,我希望大家能够把这些讯息传达给你们的同事们还有其他人。就是NVIDIA不仅仅是做游戏产品的。
谢谢大家!希望大家今天过的愉快,而且我们在今天来的分会场希望能够再次看到大家
#p#page_title#e#
第4页:NVIDIA媒体圆桌会——Walter演讲(上)
时 间:2008年1月17日(13:30—15:00)
地 点:北京丽思尔顿酒店
魏鸣:谢谢大家下午又回来这里,今天很多内容要装到脑子里,我们在上午在Walter的主题演讲里面,从更高的层面来讲专业图形解决方案对行业的影响对人生活的影响,下午有一些媒体,我们想更细的介绍一下Walter的解决方案,这个产品的特点,架构是什么。所以下午注重技术型,同时也会讲在某些垂直行业我们为什么做的好,为什么在这个市场里占有率是80%,我们是怎么做的这么深的,所以从这几方面具体的解释一下。他先有一个PPT的演讲,然后是媒体问答。
Walter:首先介绍一下我自己,大家可能从我的名字也能看出,我并不是美国人我是德国人,但是我在美国工作,我在NVIDIA工作了7年,我之前在艾尔莎这个公司负责销售和执行总裁。在2000年的时候,虽然艾尔莎是最早在用NVIDIA的东西做工作站的产品,在那年也是NVIDIA收购了艾尔莎这个公司所有相关的资产,并且把开发人员也带到了NVIDIA公司。
在之前我们只有Quadro和GeForce这两个产品线,也可以说是两个品牌,现在也就是9月之前我们推出了Tesla,大家早上已经听到了,我们现在已经有了三个针对不同市场的三个产品线。GeForce主要是在娱乐游戏这块儿的,Quadro主要是在专业DCC,还有垂直市场这块儿,数字内容创建等。Tesla主要在计算这块儿,早上我同事跟大家介绍了有关Tesla这块儿,下午我主要讲Quadro这部分。
实际上我们可以看到这三个不同的产品线,它们不仅仅是品牌不同,而且芯片相关的技术也不一样,相比较Tesla和GeForce,我们Quadro产品应该说更超级的硬件的组合,因为里面有专门是用于OpenGL,还有一些专用的不同的驱动,同时也支持AutoCAD。
这张图上(PPT)大家可以看到有关Quadro的相关数字,我们在NVIDIA,加起来有15000人年的专业GPU经验,到个月底,也就是说到我们这个财年接触我们能够出货的针对专业级的GPU是1200万套,看到我们这个数字是1200万套,而所有其他的竞争对手在这个专业领域的SGI,所有加起来的整个出货量都不达不到我们这个数字。我们总的研发费用每年是 10亿美元,这里不仅仅指Quadro产品,其实也包括其他的GPU产品,还包括媒体、通信、处理器等等,所有加在一起是10亿美元的研发费用。正是由于我们这种研究的能力,我们的投入,我们的支持,我们确信我们公司在相关的工作站的处理器是最优秀的。再看一下我们的专业团队,专门进行专业领域的解决方案开发的工程人员有200名,包括在美国东西海岸,包括在德国、印度,可以说我们这些工程是地理方面区域分配跨了所有时区,一旦有问题在这里没有解决,可能很快就传到另外一个地方解决。我们这个产品实际上有垂直市场非常大的市场份额,而且接下来我会向大家介绍,我们在这个市场上做的深度有多深,我们之所以现在在这个市场有80—85%的市场份额,要具体看地域,可能有略微的差异,主要是因为我们能够给最终的客户,通过我们的产品提供真正的一整套,适合他们的解决方法,我们如何能够知道客户有什么问题,他们需要解决什么问题呢,我们就要和最终的用户公司谈,去了解他们的需求,这些客户遍布航空行业、医疗行业、游戏等等,我待会儿再给大家介绍。
由于我们服务的客户类型非常多样,所以我们所提供的Quadro的产品平台非常多样化,这个和我们竞争对手有一些不一样,我们竞争对手往往只有某一种类型,比如像桌面系统等等,我们实际上有笔记本电脑,用于台式,用于工作站,还有单独的Quadro Plex这个产品,图形到了一定大的时候,往往需要的功耗是比较大的,把它放在一个里面可能不行,所以我们就出来了Quadro Plex的产品,用于这种需求,还可以用于刀片里面,惠普就用到我们一款Quadro产品,用在刀片里面,同时在不久之前我们还开始了有了服务器的环境,比如像远程的图形等等。这些都是我们可以提供的不同的平台的产品,具体的接下来会给大家介绍。
接下来这个问题是,为什么人们要选择Quadro,为什么不能用GeForce呢?这个问题经常人有提到,实际上GeForce用在对图形要求并不算太高的应用上,接下来我给大家举一个例子,用AutoCAD这个软件的例子,AutoCAD是大家比较常用的软件,它的价钱并不是太高,大概4000美元左右,通过使用我们Quadro可以进一步提升AutoCAD的性能。
AutoCAD2008版出来以后,已经从2D转向了3D,我们在他们出来之后,也是对我们Quadro Plex的进行了相应的调整,从而能够更好的支持它运用,而现在Autodesk、AutoCAD对硬件进行认证,以往他们并不这样做,只所以要认证,是因为3D的环境中发生风险更高,所以现在对硬件进行认证,当然Quadro是经过认证的。相比较GeForce而言,Quadro有一个大的特点就是它的设计,它的生产完全都是由我自己进行的,而GeForce只是我们自己设计出来一个所谓的参考设计,把这个交给我们的合作伙伴,由他们根据他们的最终产品的要求,进行相应的调整,比如说具体的规格,相应的环境、风扇、冷却系统怎么做,都有他们自己不同的做法。他们对自己的最终产品负责,而我们对他们进行某些调整并不清楚。而在Quadro这个产品并不是这样,完全由我们自己进行管理,所以从性能价格比这个角度来说,可能差异并不大,但是从稳定性,从受到认证的情况来看,Quadro还是比GeForce要强很多。
大家看Autodesk的网站,大家可以看到它实际上对系统的要求增加了,原来都属于标准,现在随着64位3D出来,实际上规格增加了,要求也增加了,而且开始做认证了。如果说你去用这个软件的话,实际上它里面时候会对这个系统的环境进行检测,里面有一个叫性能调谐器,就会出来说这个环境是不是正常,上面的提示说的就是,现在的3D图形环境是正常的。如果说你用的是一个未经认证的设备就会出来一个警告,会告诉你这个可以用,但是这个是未经认证的产品,这样你可以用它,但是到底稳定性和性能会是怎么样,是不能保证的,而且出了问题是没有办法帮助你解决的。
大家如果看一下GeForce和Quadro价格在相同类似价位上,性能比较就可以看一下这张图,这是一个杂志对AutoCAD的基本测试,左边是GeForce,右边的绿色点是Quadro,在不同的价格点上,Quadro的性能比GeForce高不少,也就是说很多人们会说Quadro太贵了,所以我们不用它,实际上用Quadro实际上不需要用那么高端的产品,可以往下降一降,在类似的价格上可以获得更好的性能,并且是更稳定的效果。这张总计了一下我刚才讲的东西。
现在我们来看一下架构,架构这块儿大约在8个月之前,我们做出了一个改变,就是随着G80这个产品的推出,我们公司在也是最先推出所谓统一架构的,我不知道大家谁知道统一架构这个概念?对于统一架构来说,现在如果你要用OpenGL,DirectX10,并且用Shader Model4.0,就必须要有统一架构,否则就没有办法进行运行。为什么?我们先看一下过去20年当中,到底是一个什么样的情况?首先我们知道这是GPU的工作流程,首先是负责几何这块儿,有负责像素这块儿,在几何这块儿,应该由8个管线,在像素这块儿有24个管线,几何这块儿处理三角形、点、多边形等等,像素这块儿主要是进行纹理、渲染、光线等等这些东西,这些会进行混合,要进行抗锯齿的处理等等。这些数据再放到帧缓存当中,再显示到屏幕上,这在过去20年当中,图形处理的程序。大家好象听上去有点儿晕的感觉,但是大家不用担心,大家不用去设计GPU。
老的管线架构有什么不好呢?老的架构处理几何这块儿的管线和处理纹理这块儿的管线是分开的,就是它只能做这个,或者只能做那个,我们看第一张图的形状,它负责几何的管线处理几何就非常繁忙,处理像素的下面没有几何形状,但是有光线效果,还有纹理,差异非常大,所以在处理这张图,就使得上面的负责几何的这方面的管线没有什么事情干,而负责像素的处理,纹理的管线就会非常繁忙。
再看一下这张图,我们之前看到的是非统一的架构,也就是管线要么只能做这个,要么只能做那个,这上面是一个统一的架构,这个图看上去非常复杂,但是基本上面每一个绿点都代表一个管线,最大的是128个,既可以进行像素的处理也可以进行几何的处理,不像以前只能做这个或者那个,以前是8个几何的管线,加上24个像素的管线是32个,现在我们在这上面最大的可以有128个管线。(大家随时都可以提出问题来)
在统一架构之下,跟以前就不一样了,以后在统一架构之下,如果是非常多的几何的图,所有线程处理器都可以进行几何的处理,不像以前有一些只能用来进行像素的处理。下面这张图是在纹理光线这块儿,所以所有的线程处理器都可以进行相应的对光线和纹理的处理,其他的几何处理只是其中很少的一部分。
在Quadro下面,我们也是针对不同的市场细分,在Quadro NVS这块儿,主要针对2D的市场,还有金融业、呼叫中心等等,这个是用的比较多的在Quadro FX往往用于数字应用,创新用的比较多,另外一块儿是比较专门行业的应用,比如说SDI,在广播行业的应用,还有应用到大的屏幕强上面的,就需要用到我们同步帧锁定交换锁定的技术,像你们看到在右下角这个Quadro G-Sync,在非常高的性能下放可以使用Quadro Plex这样的产品。 针对于每一种应用,我们都有相应的应用软件包,同时我们会把这些硬件和软件提供给相应的公司,让他们进行认证,进行测试,这就是为什么我们在Quadro这块儿有非常多的合作伙伴。
这上面是我们帧锁定和交换锁定的技术,如果大家听了上午的演讲,可能已经听到过相关的东西这是用在非常大的投影的显示屏幕上,同时也用在3D的模拟空间当中,比如说用在产品的模拟还有一些产品的评估等等,比如在在投影屏幕应用当中,可以用相对简单的做法,像有一个系统两个投影机投到一个屏幕上面,现在很多用户要求有更高的性能,所以会把这个分成4—6个接点,就需要主机和附属机当中实现比较好的同步,否则的话,整个的图象就会乱套了,这就是为什么我们有帧锁定和交换锁定来保证主机和其他附属的机器之前能够实现好的同步。
#p#page_title#e#
第5页:NVIDIA媒体圆桌会——Walter演讲(下)
举个例子,这是空客车,在欧洲他们所做的大的3D的模拟空间,这里用到了32个投影机,有16个屏幕,每个屏幕都是立体的,也就是一个投影机是管你的左眼,一个是管右眼,在前后左右上下都有相应的屏幕,它的大小和实际的大小是1:1比例,使得人在这里面可以用3D的模拟方式看到实际是一个什么样的情形。在SGI公司不在市场上之后,我们公司是唯一一个能够提供这种解决方案的公司了。
还有就是我们Quadro Plex这个产品。这里有一个例子,是比较新的索尼4K的投影机,一个投影机有4个输入,在他们参考的配置当中用的就是Quadro这个产品,因为它要求无缝,并且是一个工作站的解决方案,他们认为用Quadro产品是最为适合的。我们还有远程的图形的产品,比如像在服务器环节当中的,在这个当中包含有4个高端的GPU,每个有1.5GB的缓存,在这个当中大家可以看到把风扇都放在下端了,它们属于非常吵的,在使用这样一个产品的环境下,大家都不愿意放在身边,它专门是用服务器的环节设置的。对很多公司来说,他们希望能够在服务器的房间当中把图形的功能可以完成,出于安全考虑,可以在服务器当中把这些事情做完,再通过传输,传输到现实设备去,这是他们认为以后希望实现的,而我们现在正在开始往这个方向努力。还有一个服务器的应用就是在金融类领域,他们不是出于安全的考虑,而是出于空间的考虑,比如说一个交易员,前面要摆6台、8台、10几台的显示屏幕,他不希望放更多的电脑,而是希望使用服务器的解决方案,这也是介绍在空间当中产生一些热或者其他相关的污染。我们QuadroNVS这个产品,很多是为金融行业设计的,它们集中在工作站之内,有相应的软件帮助他们进行多个显示器的管理等等,还有很多金融企业所需要的功能都可以通过我们的软件来进行实行。
大家看到的这些产品都是使用统一架构,而我们最新推出就是FX3700,还有512兆的帧缓存,它的性能也会非常高,这个产品比较前面的产品它的性能提高是什么样的情况呢?这张图是我们新一代产品和此前产品之间的性能比较,蓝色柱是我们新一代产品,黄色是前一代的产品,370是新一代,350是之前那一代,570是新一代,560是之前一代,这样依此类推,可以看到在不同的高低端的产品上,新一代的产品性能相比较前一代都有比较大的提升,而且新一代低端一些的产品甚至超过了前一代比它高一级的产品。大家可以看到,我们最新推出的中高端的产品,FX3700,它和FX4600性能已经没有什么太多的差别了,至少从这个评测上面来说是这样,它们之间的价格还有一定的差距,但是在这里所做的测试并没有太多的考虑到,比如像帧缓存所带来的影响,比如说你要处理很多纹理,有大量的数据的情况下,实际上帧缓存的大小对你的结构还有比较大的影响,因为3700、4600、5600它们各自的帧缓存都不一样,(一个是5、6兆,一个是8.5兆),看它们最终运行什么的软件,可能最终出来的结果还是有一定的差异。除此以外,在我们一个产品推出在市场存在的生命周期当中,我们往往会进行4—6次驱动的改进,而且我们这个驱动是所谓统一的驱动,我们所出来新的驱动可以用在以前的产品上面,所以往往我们每过两到三个月普遍就会对驱动进行一些更新,一般来说根据我们的历史经验,在一个产品从推出到撤出市场这段时间之内,它的性能由于驱动的改进会有30—50%的提高,所以大家从这张图上所看到的性能的表现还不是最后能够达到的最高的状况。
同时,我们新推出的产品,它在功耗上面也有所降低,像3700这款,功耗大概在78瓦左右,而之前这一代是在150瓦左右,性能优60%的提高,功耗大概下降了一半左右,总的来说我们这些新的产品每瓦效能都有比较大的提升,在上面所列出的产品当中,都已经经过了能源之星的评定。我们这些产品从FX370—FX3700都用PCI-E2.0,意味着我们总线带宽已经提高了。当然坦白来说,大部分的应用并不能用到这些带宽,只能在很高端的应用上使用这些带宽。
与此同时,我们还在驱动环境当中不断提高我们的产品用户友好性,比如我们有一个叫ACE(程序配置引擎),为什么要有这个呢?我们知道对专业用户来说,他们往往同时使用多个软件,比如在桌面上同时运行几个,AutoCAD、Autodesk等等,同时打开,往往在以前他们需要针对于每一个,比如说利用这个应用的时候,需要对于驱动进行相应的设置,以实现最优的性能,再用另外一个再重新设置一遍,这样很麻烦。现在我们有了这个ACE,就会自动发现他在用什么,比如说你点开了新的软件,新的程序,它就会发现你已经用这个东西了,它就会进行相应的驱动配置的调整,使得你可以在用这个程序的时候实现最优的性能,这个是我们最近才刚刚推出的,现在是用在Vista和XP上面。这是我们刚刚所推出的比较新的产品,是一周之前才推出的,我就不具体讲产品具体的规格,如果大家有兴趣可以联系我们在中国的同事,因为也有同事在这边,可以想他们要一些样品等等,可以进行一些检测等等。
现在我们看一下,在垂直市场上面所做的工作,对于竞争对手来说,他们对于垂直市场的定义,比如说制造业,实际上对我们来说,制造业并不是一个真正的简单的垂直市场,比如像在制造业当中就可以分成汽车、航空、造船等等。而在仅仅在汽车这个行业,都可以分成非常多的步骤,而且是非常复杂的。比如说首先是造型,在造型这块儿就要画出车的图等等,你想让它是什么样的形状,通过造型就进入到设计阶段,比如说你车身和表面怎么做,仪表盘,相应的电子设备,还有动力总成,包括你的引擎、发动机、轮子应该怎么样,还有轴等等到底怎么样设计。在设计之后还要进行数字的模拟,就是上面的DMU,就是数字的模拟,还要考虑到驾驶的模拟,还有碰撞模拟,还有空气动力学方面的考虑。同时,在这个之后还需要进入生产过程,就要进行模具的制造,这个过程当中也会用到可视化的东西,同时在工厂的设计上也希望是最为合理的,所以也需要首先要有一个数字工厂,进行数字模拟,需要最大的合理性,这些过程当中会生成很多3D数据,也可以应用到市场营销当中。
举个例子来说,像奥迪2.8这个车,在相应的资料片上市之前,实际上并没有一辆真实的车存在,所有的资料片当中所用的东西都是利用3D制作出来的。这些3D数据化可以用做很多的用途,像保时捷有了这些3D数据之后,应用到他们的培训当中,比如说修理的培训,还有在网络上让这些用户可以自己来进行车辆的配置,通过使用3D数据,我们不久之前也收购了一个公司,这个公司也做很多相关的产品的开发,比如说在网络上如何进行实时的车载的配置等等,这都是他们的专长,同时也可以把这种技术用到经销商的终端,比如像通用汽车欧宝这个品牌,他们在欧洲已经是部署了600台这样的终端,而且通过使用这样的终端,每一个经销商都可以把他们的销售增加30%。
现在我们可以看到,在整个汽车的设计、生产、销售过程当中,在很多的步骤上都可以用到我们这个产品,比如说像前面在演讲当中大家也看到了,在车身内部现在一些GPU产品的使用,比如在显示屏仪表盘,有驾驶员的支持系统等等,这些都可以用这个技术,而且现在很多的领域有CUDA和Tesla的产品,在模具方面我们希望使用通用的GPU,像模具制作过程当中,会有一些塑料跟一些金属,它们之间要脱开需要有一个比较巧妙的角度,一个什么样的角度可以做的最好,这些都可以通过GPU的使用进行相应的模拟,从而实现最佳的模具制作,在这方面我们都在进行工作。
大家可以看到这些是我们在中国之外的合作伙伴和客户,里面有美国、欧洲、日本、韩国,Google也是我们的客户,比如像Google Earth,我们跟大众进行一个导航系统的研发,就会把数据从Google Earth拿过来,车里的驾驶员就可以读到这些数据。Google也用到我们的服务器相应环境的产品,比如在服务器当用到了媒体通信处理器,在美国的Google在他们的平台之上就有100万个服务器接点。当然,也可以看到我们的客户遍布非常多的行业,比如在汽车行业,大家看到了很多汽车公司,还有医疗设备,包括通用电器,还有飞利浦、西门子等等,还有广播电视台等等,还有像电子产品,很多这些公司大家都非常熟悉,都是我们的客户。在中国我们时间非常短,在Quadro这块儿仅仅只有一年半的时间,但是我们也非常高兴,中国的公司也非常愿意使用我们的产品。从这一页上可以看到使用我们相关产品的公司的名字,宝钢、福田汽车、通用、大众、一汽等等,当然也有原因是因为他们很多都和国外的车厂进行合资,像丰田、大众、奥迪等等,所以我们进入的途径相对来说也比较容易。
这上面大家可以看到更多,比如说数字内容制作,还有游戏行业,我们在国内的一些客户,我也认识客户当中很多的人,我们的销售团队在中国也有很多的相关人员,我们也会到世界各地去和这些客户谈,去了解他们存在什么样的问题,我们看是不是可以通过我们软件的合作伙伴帮助他们解决相应的问题,当然通过利用我们的产品。
我已经讲了很长时间,听了这么多,大家都觉得自己可以去设计图形卡了,不知道大家现在有没有什么问题?非常愿意回答大家的问题。
记者:刚才说到Quadro是通过动态分配统一渲染,两个单元,渲染单元和像素单元,我想知道是怎样进行的,是通过CUDA吗?协调动态统一是如何进行的?
Walter:主要通过GPU当中的驱动来进行的,到底哪些是几何,哪些是像素部分,比如说这个数据进来,我们这个软件就会自动判断,到底是属于处理三角形、几何这块儿,还是处理像素纹理这块儿,对每一帧进行测试,看哪些属于几何,哪些属于像素这块儿,总的来说由驱动进行分配,这和CUDA不一样,CUDA是针对于每一个处理器,在CUDA当中是通过驱动来进行的。
记者:有没有与奥运会相关的客户以及新的应用?
Walter:我们确实有,但是没有得到客户的许可,没有办法给予一些详细的信息,比如我们跟(索贝)有很多的合作关系,他们是给很多广播类的公司进行软件服务,特别是高清环境下,高清电视和3D内容是做的比较多的领域,还有(水晶石)这个公司,也在这方面做很多的工作,也是我们的合作伙伴。
记者:是不是针对细分的垂直市场的功能,是不是已经集成在里面了?
Walter:我觉得你说的没错,比如说我们针对于广播行业,我们有SDI的技术,SDI应该叫串行数字接口,它可以帮助实现你的3D内容和视频融合在一起,如果做到这一点,就需要有一个SDI的输入,往往以前的做法先在 GPU上面做,然后再到SDI板上面去,现在通过我们这个产品,就把GPU和SDI放在一起,可以实现实时动画等等,我们针对超大的屏幕墙有我们的同步锁帧的技术,针对数字内容创建OpenGL,我们有专门的驱动,我们针对不同的市场有不同的驱动,还有相应的硬件。看一下我们这个产品系列,我们有8个标准产品,有5、6个针对不同行业的行业性的产品。大家可以看到下面这张画是针对不同的,比如像SLI可以实现更高的性能,SDI是适用于广播的行业,最后一个主要是在服务器环节当中进行使用的。还有一个MBS,这个产品主要是针对金融行业的还有呼叫中心,甚至包括9.11这种急救电话中心,因为他们有很多屏幕需要同时进行管理。
记者:是不是这些是我们目前有的垂直专业市场的产品?
Walter:这是目前我们有的垂直专业市场的产品都在上面。这里面实际上有些是第三代产品,G-SyncII已经是第三代产品,SDI是第二代产品,Plex是第二代产品,服务器是第一代产品。
记者:刚才说这个这个图形服务器跟Tesla在应用上有什么差异吗?
Walter:这里有一些不同,首先Quadro Plex是支持OpenGL,而Tesla是不支持OpenGL的这是一个区别。第二,他们的内存不一样,因为对于计算来说内存非常重要,所以Tesla是一种特别的内存,比如说对图形来说,即便内存犯一点儿错也不是那么大的问题,因为一个像素每秒钟要变50次,有一点儿错误没太大的问题,Tesla是用于计算,如果这里有错误,都会影响后面的计算,所以后面的准确性都非常重要。我们在Tesla当中有一个内存控制器它会对对错进行检查,这和Quadro是不一样的,而且本身它的内存也是特殊的内存也不一样。总的来说,Quadro支持OpenGL,Tesla内存更好一些,GeForce就便宜一点。Quadro其是从图形的角度,Tesla是计算的角度。
#p#page_title#e#
第6页:NVIDIA专业图形解决方案高端论坛——Andy篇(上)
时 间:2008年1月17日
地 点:北京丽思卡尔顿酒店酒店 大宴会厅
Andy Keane:非常感谢大家今天来参加我们的论坛,这是我第一次到中国到北京,我觉得这个机会非常棒。今天我要跟大家介绍什么呢?是一种为大家设计推出的全新技术,帮大家解决软件开发中的新问题。
CUDA技术是在去年推出,在Tesla之后推出,主要作用是帮助大家解决在你们的软件、科学研究和工程当中出现的新问题,所以我的演讲会是两部分,首先是CUDA技术,CUDA技术怎么出现的,大家如何使用这个技术,然后讲另外一个产品线就是Tesla,这个产品线是面向工业应用的,把GPU用于以前没有用过的地方,比如说数据中心,人们在进行科学研究以及工程方面的应用。
从这张图上大家可以看到,可编程GPU随时间发展的状况,2002年我们推出了第一个可编程的GPU,在那个时候我们的变成单元只涉及了GPU的很小一块儿——着色器,于是,在2002年,我们开始有了可编程的着色器。因为我们的用户是希望有这样一种功能的推出,这样的话就使得那些开发人员他们可以在图形当中做一些特殊的效果,就可以用到他们的创造性。因为本来GPU的功能是特定,而在2002年我们也希望能够把GPU用于除了图形以外的一些应用,在2002年我们就推出了32位的浮点,这不仅仅是用于图形的,把这个技术给了开发人员,而最终我们犯了一个错误,就是在早期我们忘了一个重要的事情,这个重要的事情就是这是一个软件工具,我们必须要能够解决软件开发人员的问题,不仅仅给他们一个硬件,一个新的处理器是不够的,因为在那个时候GPU仅支持OpenGL图形计算的,我们认识到这个错误重新开始,在2003年我们用了一些新的人,像计算机架构人员,语言开发人员,让他们和图形以及工程人员一起开始了新的项目,最终就推出了我们的CUDA的技术。CUDA技术不仅仅是GPU的计算技术,同时也是编程环境,编程语言,它是第一个能够把定型计算串行计算融入到一起的技术。开发人员解决了一个计算问题,他们用的C语言,C++,登记于网络的语言或者是Java。他们在编计算程序的时候,他们怎么来做的呢?他们是做一个C程序,然后就在CPU上进行串行的计算,这个计算是按顺序来进行的。给大家看一个例子,要进行并行计算的话,开发人员不得不加很多的软件,就像多核或者是集群,你必须要用软件的工具来解决并行计算问题,我们在CUDA当中怎么做的呢?
在CUDA当中,我们创建了一个环境,CUDA是可以统一并行和串行计算,CUDA是有三个组成部分,他是一个C语言编译器,实际上用CPU的编译工具开发出来的,这个方式IBM经常使用,还有一个专门的计算驱动程序,这不是一个图形的驱动,而往往速度更快,而且和图形的驱动不一样,这样的话就可以增加我们的计算能力,并且独立图形之外的,还有工具,还有标准的CPU类型的工具,包括像调试程序,分析器,我们还有很多样本例子来说明如何用技术来解决一些相关的问题。我们还有很多的培训,还有手册,还有教育工具,能够让开发人员来学习如何在GPU上进行编程。我们看一下首先是计算的格式,我原来是做微处理器设计的,我们使用单核做一个设计,有一个指令在任何时间都能进行一个指令的执行。它是一种串行的方式,也就是一个一个指令来的。如果CPU是按照顺序来的,而且是一小块儿、一小块儿来的,而CPU的工作方式首先要有很高的频率,而且要很大的缓存,这样的话就可以实现非常高速的串行计算。但是看一下GPU非常不一样,GPU的设计可以解决并行的计算问题,图形就是这样,向每一帧大量的像素,像3D当中更是以百万进行计算,这些都是并行实时的,所以大量的同时通过GPU,而且大量是并行,同时进行计算。就是说把所有的数据一起拿进来,可能是128个处理器同时进行计算,所有都是同时进行。CUDA就是这两种类型之间的连接点,开发人员开发一个C程序,然后把CPU的代码和GPU的代码在原代码当中共存,而CUDA成为了串行计算和并行计算的连接,心里我们有一个编译器在GPU上可以并行使用,CUDA可以延伸到CPU当中,也就是说大家可以编CUDA的程序,并且可以在CPU上面进行执行,所以可以用并行的概念,并行是用于不同的设计当中。
看一下到底在一个并行和串行当中有哪些不同的特性呢?首先看一下GPU,它不是代替CPU,它们必须是携手合作,因为CPU有很多的技术,可以解决某些特定的问题,这些问题是非次序的,这些数据必须按照数据进行。操作系统就是一个非常经典的类型问题,是CPU非常善于处理的,很多不同的功能之间没有关联性,所有的数据之间没有关联性,所以要实现这种功能。还有数据库,同时还有时间的压缩,同时不断地使用同样的代码,这种类型对CPU来说非常适用。GPU就不一样了,有一些类型的问题,他们存在共同性,存在共同的主题。首先是海量数据的处理,像石油天然气,他们从大陆上海上搜集到大量的数据,然后需要进行处理怎么样来进行挖井,还有金融风险,股票市场,国内还有其他国家的,所有这些信息数量非常大,需要进行处理帮助人们进行正确的决策。
还有另外一个例子就是医疗成像,在先进的医疗设备当中,比如像CT机或者是核磁共振,往往传感器会出来大量的数据需要同时进行处理,这对GPU来说非常适用。当然GPU是需要和CPU来进行合作,进行数据的管理,对操作系统进行管理等等。GPU上有三个不同的东西,首先有专用的计算,在GPU当中,在进行计算的时候是一种非常特殊的方式进行,它不再做图形,而是将自己作为一个计算单元模拟一个处理器就是来进行计算。第二,GPU上的C环境,C是什么,任何开发人员理解C语言,现在就可以理解如何来对GPU进行编程,而真正的挑战很多开发人员面临的就是如何来进行一个并行的计算机的软件,这个和其他的是一样的,无论是多核还是集群,或者是GPU问题是一样的,并不是一个单独的GPU的问题。第三,出去在数据中心有一个问题,比如说你有一个高性能的工作站进行工程设计等等,我们有一个专门的GPU产品针对这种环境。其中金融方面的计算,这是非常复杂的,结果非常不错。还有另外一个是天体物理学,就在今年波士顿就有一个专门的会议就是有关GPU在天体物理学当中的使用,有一百多个科学家会来讲,他们来自全世界,会讲到新的类型的研究在GPU上面,以及他们如何把这个利用到天体物理学的研究当中。在这样的一些应用当中,还有一些设计应用当中,他们以前需要在大的计算机集群上,比如现在可以在工作站就可以解决了。
而且非常强调游戏的体验,游戏的性能,CUDA前面Walter也讲到了,是用一些专业的应用,某些特定的产品,一些性能。
第三个就是Tesla,为什么要用Tesla,是因为在数据中心没有GPU,所以我们是专门引出了这种产品,针对特定类型的客户。在这些GPU上,他们能做一些什么呢?大家可以看一下在GeForce上面,为什么要用GeForce上面的CUDA呢?除了游戏以外,很多游戏人员把CUDA纳入游戏当中,还有很多图像,有很多数据是相机,我们可以获得更快的图像,更大的像素,更好的互动,更平滑的画面。用CUDA可以把所有这些好的这种图像功能用出来,还有音频、编码、解码、压缩、安全性等等,所有这些功能都可以在GPU上并行处理。CUDA可以实现图像可视化和音频图像同步。
通过CUDA可以让这些更快,还有我们前面讲了Tesla,它有哪些应用,下面我会更具体的讲。这是最新的应用,在过去两三个月当中出现的,像实时的期权,还有分子动力学,还有超声影像,这是分子动力学当中的代码,可以是嵌入到很多其他的不同的环境当中,我们有很多的例子,在地震偏移等等。CUDA可以免费提供,所以有很多的软件不断地出来我们也非常关注这些发展。
#p#page_title#e#
第7页:NVIDIA专业图形解决方案高端论坛——Andy篇(下)
现在看一下Acceleware的例子,这是开始一些公司在用图形的API进行计算,2006年他们推出一个产品是手机模拟的产品,很多手机上的天线用GPU进行模拟,为了保证信号的完整性不受损害,还有安全,很多的厂商在设计手机的时候,会使用到GPU,这个技术也是嵌入的,而且也非常快,产品推出的时候,我们是展示了一种差异,如果用仅仅用CPU,或者相比较CPU和GPU的差异,如果仅仅用CPU的话,CPU需要15小时,而GPU只需要15分钟。我们跟媒体见面的时候,把这个给他们看了,基本说就在我讲完之后,可能一个模型就已经完成了,如果你用比较慢的技术,可能要等到明天。对工程师来说这个完全不一样,因为通过快的技术,他们可以进行非常好的互动。
现在他们在做一些地震方面的应用和研究也就是说他们希望用这个计算集群的算法来帮助一些油井公司来找到一些石油。在石油探测领域有一家公司叫HEADWAVE,他们也用了一些地理数据,你可以看到这涨图,他们是关于石油的产品,看了一下这些图就问,应该在哪儿进行钻井呢?你要决定的时候,服务器要处理很多的地理信息,HEADWAVE他们把这些相关的数据收集起来之后建立一个数据库,非常大,之后需要一个工作站通过GPU来进行数据处理。
VMD/NAMD分子动力学领域也是先锋领域,去年我们的首席技术官,他说我在这个课上学了一点儿东西,之后可以用在视频分子动力学的设计中,包括分子,还有细胞,还有细菌动力的分析。之后他发布了一款工具,在我们的网站上进行发布,用了一个标准的工作站,3GPU的设计,基本上能够达到非常快速度的这也是令人吃惊的研究。在美国如果用一家最先进的研究机构,也要花很长时间,很多的科学家来进行研究才能得到这样的结果。
再看一下Matlab,这个实验室都所有的工程师来说,他们在这里使用CPU+GPU,通过使用这个,性能得到了17倍的提升,人们可以把电脑作为一个计算工具来使用。我们做了一个研究代码,通过CUDA可以使用这个加速17倍,以前需要3天,现在只需要3个小时的时间,他们一周可以做两次模拟,现在总的来说这个研究速度得到了很高的提升。
简单介绍一下我们在金融领域中的应用,金融领域是一个非常有趣的领域,尤其对高量数据的处理来说,对电脑的要求也非常高,我们在美国可以在一秒钟把美国所有的期权进行处理,可以评估美国所有的股票期权,所以基本上是实时的可以处理这个结果。
再看一下Level3,他们也有很多的不同的期权不同的证券,他们也采用这个技术对七千进行分析。这我们一个研究人员做的标杆性的研究,它的性能可以比普通的电脑的速度要提高好几百倍。所以总的来说,对GPU来说,在未来重要领域的应用非常有前景。
这张图是地理信息系统,或者是多重地理信息系统。在很多领域都可以应用,比如说你想做城市规划,建一些社区,房屋、道路的设计,这些的城市规划人员可以用地理信息软件或者技术来分析相关的人口信息和地理信息之后来决定是否在那里建一些医院或者房屋等等。比如说应该在哪个地方建立一些街道,还有我的电厂应该在哪儿,这个软件可以制作出一些地图,叠加上人口信息,住房、人口、公路等等描述这个区域,这样可以和地质规划人员,城市规划人员进行互动,规划人员可以使用GPU正确的设计出道路,可以打造更加高效的城市。
另外就是关于天体物理学,很久以前,有一系列的天体物理学家,他们觉得天体物理学能够通过GPU来加速,在日本也使用了这个项目,他们使用了GPU之后效果非常不错。
再看一下曼德尔布罗特,这个很难做,它是一种非常简单的应用,我们在网站上也是由学生开发的,他每天给我们打电话,发邮件,希望能够得到一个板块,之后我们给了他一块儿,马上就给我们做了曼德尔布罗特的模拟,所以现在已经在我们的SDK上发布了,也就是对我们的工具包里对我们的开发人员进行了正式公布。
给大家看一下演示,这是用笔记本电脑做的,这个用的G80的GPU,这是它的编码,速度不是很慢,总而言之是手提电脑,负责大家对这个游戏比较感兴趣,实际上也进行了细节性的模拟,模拟水面的波纹。接下来一张,这是天体物理,实际上它是实时的模拟,也是用笔记本电脑做的,你可以看到在这上面,大概有35G浮点,但是整体的价钱不贵,仅仅900美元,所以任何物理学家都可以做比较有趣的模拟。另外有一点,它也是8800 GTX的基础上设计的,它是在16GPU的体系上进行操作的,实际上也可以在笔记本电脑上进行运行,因为它比较稳定。你可以看到这个就是GPU的好处。
这个比较有趣,但是给大家展示另外一个角度,基本是是从工业应用的角度上来展示的,有一些领域大家在Walter 的发言中也看到了,就是视觉的领域,我们是怎么做的呢?我们首先有一个和电脑连接的摄像机之后进行过滤,在CPU和GPU之间进行过滤,点一下CPU,先点上面再点下面,你看数字比较少,但是你可以看到这个电脑上有10个飞行演示,所以对笔记本电脑来说,一个比较一般性的CPU加一个GPU的话就可以进行8次的飞行演示。可以看到这个图像还是比较清晰的,我们再看最后一点。这个图像在CPU不太可能实现,基本上是通过GPU可以实现,这叫光流,也就是CPU来分析一下这个屏幕上的一些投射。我们在CPU上是不能够做,比如说你可以看到一些色彩的损失,所有这些小的红点,基本上都是小的三角,这些小三角能够感知到屏幕上物品的运动,而这个矢量还有三角形的大小就是这个矢量,这在CPU上不能做,CPU只能做区域性的分析。所以,你可以看到对CPU电脑来说,你可以看到一块儿一块儿的东西,不能真正做细节的图像描述。但是,这也是在笔记本电脑上做的。
『NVIDIA专业显卡及解决方案展示区』
我们再看一下Tesla产品线,我们会继续发展GPU,也会继续朝笔记本电脑方向进行进一步的探索,但是在Tesla方面我们希望真正的有所探索。第一个就是工作站,我们有一些科学家和工程师他们有电脑,这样我们可以桌面和桌边型计算机上实现超级计算机的性能,我们给他们建立新的服务器,来满足他们大规模计算的需求。另外,工作站的计算集群,也就是说在桌面计算机上可以建立一个标准的工作站。
接下来是关于服务器的,你可以看到这里有4个GPU,它的高度大概是1U的尺寸,可靠性比较高,同时对数据管理中心来说,之前的可能有4000多个服务器,有很多GPU,对管理人员来说怎么能够看到哪个地方有些问题,比如说有一些风扇散热出了问题,那个地方怎么办呢?GPU可以自我管理,自我处理,所以你可以看到密度比较高,目标性能比较高,同时尺寸比较小,同时自我管理能力比较高。这是我们数据中心计算系统,对Tesla来说服务器是怎么做的呢?
你可以看到软件能够把软件和CPU连接起来,这是有一个服务器,有两个小的适配卡,放入服务器中,还有一些电缆,把GPU系统,目前有4个GPU,通过CPI的转换器进行连接,这样可以把PCI,GPU和CPU连接起来。
这有4个8系列GPU,第二个是2个GPU,这是服务器解决方案是4个GPU,工作站就是两个或者一个。刚才我简单介绍了我们怎么应用CUDA,怎么应用计算的。今年你可以看到GPU在CUDA这方面会有进一步的进展,我们希望能够建立一些新的平台新的环境,希望能够更好的提高计算速度。
谢谢大家。
#p#page_title#e#
第8页:NVIDIA CUDA技术媒体介绍会——Andy篇(上)
时 间:2008年1月17日(11:00—12:00)
地 点:北京丽思卡尔顿酒店
魏鸣:今天Andy在他的主题演讲大部分介绍了CUDA的情况,在这里媒体有问题他来回答,他先介绍一下今天早上的内容,再给大家重新总结一下。
Andy Keane:今天上午我总结一下,我们主要介绍了CUDA。另外,在07年我们主要推出了两个最主要的技术,一个是CUDA,他是用新的编程环境,是对GPU编程,对一般的开发人员,通过使用CUDA能够使用GPU来编程,以前开发使用CPU,C或者C++语言来编程,通过CUDA他们可以使用GPU来编程。
CUDA这个产品一大特点就是它能够建立这样比较好的软件环境,一方面能够使串行的处理成为可能,另一方面也能够使并行的处理成为可能,这样串行的CPU可以用顺序处理一些数据,同时也把量比较大的数据分成不同的块儿,GPU可以通过并行的方式进行处理,总的来说CUDA建立一个比较好的软件环境,同时使CPU和GPU并行数据处理成为可能。
另外,对CUDA来说比较有特色的一点就是它是通过把CPU并行起来一样,让CPU来处理不同块儿的数据,也就是说通过软件,CPU在处理的时候通过软件来处理,也就是把不同的问题,或者不同的数据并行起来,通过管理不同的现在线程用软件来处理问题,有的时候有困难,如果通过软件管理和处理线程的话,为什么采用GPU呢?因为GPU实际上是在建立就把管理的问题解决掉了,假设输入一大堆程序或者信息,这时候GPU就会主动的进行计算,同时对这些线程进行分析和计算,再反馈给你答案,这时候GPU只负责计算不负责管理,所以速度要快,而且更简单一些。
『NVIDIAGPU计算事业部总经理Andy Keane先生向参会媒体介绍专业显卡优势及发展历程』
另外,再说完最后一点大家就可以讨论,我手上已经有大家提出的一系列问题,讨论问题的清单,这些问题问的非常好,都是关于软件环境的,CUDA作为一个工具,目前仅仅处于开始的阶段,这也是为什么我们现在用简单的语言环境下利用CUDA,也就是C,这对很多的开发人员里说,他们就会更容易使用GPU,因为C语言对他们来说非常容易,大家都会。这只是一类开发人员,在未来我们还会在新的工具,其他的高级语言上来使用CUDA,那时候我们可能会有一些新的设计,或者新类别的CUDA的应用。
比如说一些高级语言现在就可以并行处理一些数据,我们就在CUDA的基础上,因为CUDA实际上是一种渠道,让程序员能够利用CUDA接触使用GPU,在未来新的高级语言上,我们利用CUDA之后,整个的处理速度将会更快,比如说在C++语言上,我们可以把整个环境架构在CUDA之上,或者整个驱动之上。CUDA应该在利用GPU的计算能力上,最底层的软件环境,其他的语言就可以在这个基础上进行应用了。
根据你们提的问题的清单,我也提大家感兴趣得主题,大家想知道为我们要选择CUDA,为什么要用CUDA,设计出CUDA的目标是什么,应用是什么,世界上在科学界、工业界大家都知道CUDA有比较好的应用。大家比较感兴趣的是对普通的消费者来说,CUDA是不是有一定的未来可以使用呢?另外今天上午也做了一些小的演示。
举个例子,就像笔记本电脑一样,今天介绍关于天文物体学的设计和演示,实际上它能够处理35G浮点的处理速度,就像手提电脑一样,10—15年前尺寸相当于一个大的房间,还是很笨拙的,现在可以处理视频、音频还有其他的应用等等,所以潜力还是比较巨大的。CUDA也是一样,我们仅仅推出一个初级的版本,或者刚推出的版本,在未来随着性能不断地提高,我们会推出下一个版本,再下一个版本,这样不仅仅是程序员、科学家、工业人员他们可以使用CUDA进行设计,包括普通的消费者你们也可以利用CUDA来进行自己的设计。超级计算,以前是在很大的电脑上运行,现在由于有了这些先进的GPU的技术和CUDA的技术,就可以在自己的电脑上,完成很高的科运算。现在,大家有任何问题可以提出。
记者:我理解CUDA技术是NVIDIA动态负载平衡技术,并且通过驱动程序来实现的,可能是比较灵活,这种方式必须是用缓存技术来优化推进或者是同步计算?它依赖缓存技术,这种方式最终会不会以芯片内制的方式整合到芯片当中来实现呢?
Andy Keane:实际上对于很多图形的站来说,复杂的因素都是在GPU里面的,图形和计算基本的应用是一样的,在GPU里面有一些核心的应用,或者说核心的程序,通过驱动连接到CPU,基本上通过一个通道来平衡CPU和GPU,这个所谓通道就是我们所谓的芯片和芯片组,比如说你可以把一些软件,包括一些应用程序,包括驱动,也就是CPU的软件连接到GPU的内核上,通过通道。但是总的来说,未来不会有太大的变化,不会出现芯片内制的状况,还会保持现状。
记者:第一,关于GPU,咱们新的工具跟CPU和GPU的联系非常紧密,我们在CPU这方面得到的支持有多大?比如说得到AMD和Intel的支持有多大?第二,我们有一个相关的社区,这个社区里面我们相关的东西会不会用开源的模式推广,另外会不会对进入这个社区对开发人员有一个奖励的机制?
Andy Keane:简单介绍一下GPU和CPU处理的数据是各不相同的,解决的问题也是不同的,对GPU来说它处理一些比较类似统一的数据,能够平行一块儿的形式批量处理,但是对CPU来说,它是一种顺序的方式处理一些少量的但是各不相关,不同的数据。比如说在我们操作系统中,你们会经常看到,我们的CPU来处理键盘,还有你们的文档等各种不同的程序,这是非常小的。各不相关的,基本上是CPU来处理。在实际应用中两个内容都包括了,有的需要并行的处理一些数据,有的需要串行的处理一些数据,所以就需要我们要找到一个平衡。比如说对于你的手提电脑来说,基本上很大程度上使用的是CPU的处理,比如说各方面。在图像和MP3这方面使用GPU进行处理。另外在油井开发、地理信息这些工业应用中,并行处理的数据很多,因为信息量比较大,都是比较类似的,但是需要以顺序处理的方式的数据比较少,所以在不同的行业不同的应用中我们都会找到不同的平衡。
记者:AMD也购并了一个企业,会不会对CUDA技术进行一些限制?会不会影响CUDA的应用。第二,Intel始终想跟NVIDIA这块儿有合作,如果在这方面你们推出来CUDA是想在高端这块儿有一些影响,Intel会不会对你们有一些限制,如果不得到这两个公司的支持,CUDA在跟CPU的接触中会有一些脱节,这样的话GPU的能力就很难发挥出来,或者说即使GPU的能力发挥出来了,CPU也很难。
Andy Keane:实际上对于AMD来说,他们和CUDA在某种程度比较类似,他们的软件环境比较类似,所以基本上娓娓道来我们预测他的代码也好,软件也好,将会非常类似于CUDA的一些代码和软件。现在他只是把一些相关的部分拿出来放到他们的芯片中,因为我们的芯片不一样,CUDA和AMD是不一样的,他们就把类似的因素拿出来放到芯片中。但是基本上我们是属于一个俱乐部,因为我们的技术也是一样的,软件也是一样的,未来他们有所发展对我们并是一种威胁。
关于Intel,他们的软件采用多核的CPU技术,但是由于他们多核的存在,他们的运行问题太多了。为什么呢?因为程序员们总是要处理很多多核的运算还有设计,处理多重的线程,你编的软件要在不同的线程上运行,而且能在2、4、6个不同的处理器之间灵活的转换,这已经是非常难的事情。所以,对Intel多核电脑来说可靠性比较低,作为媒体你们也经常报道,多核技术总是问题比较多,已经成为他们往前发展的一个障碍了。
我们有很多的挑战需要去解决,一个好的软件开发员利用多核来做的话,它的稳定性,因为要有多线程来开发,稳定性就会有问题,很多问题需要去解决。
另外也想强调一点,在这个软件环境下,我们并不准备代替或者替代软件中的多核CPU,为什么?因为在未来多核的CPU还在运行系统中运行,同时GPU只是负责处理那些非常大的,海量的而且需要快速处理的数据,它的功能主要是在不替代CPU的前提下,来主要负责处理大量的数据,而大量的线程仍然是存在CPU上。总的来说,CPU和GPU共存,在未来GPU处理大量的音频、视频还有图像这样一些数据,但是CPU还会处理一些串行的内容。
#p#page_title#e#
第9页:NVIDIA CUDA技术媒体介绍会——Andy篇(下)
魏鸣:我们说的CUDA这个东西是怎么样更好的利用GPU的计算能力去开发新的应用出来,这在以前人们基于CPU来开发应用程序,但是GPU的能力没有被很好的开发出来,我们推出CUDA就是为了更好的利用GPU的计算能力,所以我们说的CUDA这个技术和其他的公司所谈到的利用CPU来进行的这种编程是不同的范畴,解决的问题不一样。就刚才说的CPU和GPU的运行模式也不一样,所以他们之间不是对立,是并存在一些解决不同的问题。
Andy Keane:CUDA作为一个软件,CUDA是用C程序基础上的一个软件,他可以在不同的市场上应用,比如说GeForce一些应用市场等等,但是对工业或者高端的大量数据处理的领域来说,应该是Tesla这个产品。我们有两个竞争对手,其中有一个是FPGA,这个时候大家就问这个问题,为什么我们会选择CUDA而不选择FPGA,对程序员来说他要选择程序运行的时间有多长,对FPGA来说,如果发生变化是要在芯片方面发生变化,所以它只能解决一些非常特殊的问题,在某些问题的解决上,FPGA的性能比较好,但是问题是可编程性比较差。
魏鸣:CUDA跟编程语言的区别,比如说金融业方面你要分析证券,如果用FPGA就要有变化要重新设计,用CUDA不需要重新设计,改变程序就可以了,这样便于开发人员应用,而且可编程性更强了,这是主要的区别。
记者:如果使用CUDA的话,这个程序员是不是要在开发习惯上有所改变?
Andy Keane:总的来说,CUDA解决的是并行的计算的一些问题,实际在CUDA出现之前有很多其他的技术,也出现并且目的是为了解决这些问题,这些问题是并行大量的数据处理,也是早就存在的,这也是为什么出现了多核处理器,出现了FPGA等等其他的技术。就像看一本书一样,作为CPU会一页一页过这些书,再把相关的词找出来。但是GPU就很简单,把整个书分成好几块儿,同时并行处理这些内容找到你的目标。总的来说,这个问题的设计,这个思维,这个概念才是最主要的,编程也很重要,但是和设计相比不像设计那么重要,设计是核心的。所以,在程序上可以通过CUDA,可以通过多核或者FPGA来解决,但是对程序员来说需要在思维上有所改变,在程序操作上不用做太大改变。
魏鸣:软件不需要做改变,只是在扩充编程的时候要从硬性的角度考虑这个问题,这个才是最重要的。
记者:我有三个问题。第一,CUDA在图形编程方面和现有的图形开发环境,比如说OpenGL在做图形编程的时候是否会有冲突?只能用其中一种。第二,使用CUDA这种应用程序是不是只能在NVIDIA的硬件平台上?如果是的话,我觉得未来可能出现多种GPU接口的标准,是否有一种解决方案解决多种应用平台之间的兼容性问题。第三,CUDA是否能够在移动开发环境中应用?比如说在手机上,现在有没有计划与手机的操作系统开发商有这种合作计划呢?
Andy Keane:在设计上,我们CUDA在图像处理这方面已经考虑了要通过API,OpenGL所设计的图像能够兼容或者设计接口,首先建一个像素缓冲目标,后写入API,整个过程还是比较容易实现。像之前的演示里面也是这样一个概念,就是在图形和CUDA之间,我们实际上找到一个平衡,天体物理学那个演示中大家能够看到。因为有的时候CUDA并不能处理所有图的信息,而图也不能处理CUDA所能够处理的信息,因为CUDA处理信息比较独特,那些非结构性的数据,包括字符和一般性的数据,对图来说,处理的数据更加具体更加特定,所以我们在设计上也考虑了不同的因素组合起来。
第二个问题,CUDA刚刚开始是我们公司的产品,我们也会基于我们公司的产品推广这个技术,但是CUDA在计算领域里,只有开放式的架构和技术才能够有生命力,所以CUDA会慢慢的把它在CPU上运行,或者在其他的GPU上面运行,这肯定是以后的趋势。但是,我们不会强调行业接受这个技术,而是有这样一个平台,这样一个技术让大家一块儿来开发。将来有一个情况就是其他的人采用它,可能会有其他的标准出来,我们一块儿互相结合在一起做,所以还会是行业性开放性的技术,发展方向应该是这样的。
第三个问题,CUDA对移动设施来说是高中端的产品,但是它的体积比较小,对CUDA来说目前是嵌入GPU的技术,或者是什么也好,我想未来技术可能会用在手机上,但是可能要经过几代,直到技术允许它的尺寸可以缩小到一定的大小,另外需要的电源,还有各方面的需求可以满足手机需要的时候,但是中间可能要经过一段时间。
Andy Keane:应用于计算机的计算技术,你最后看到在你手机上需要花几年,因为你要减少功耗才能用,现在在高端的,GeForce 8系列可以用,慢慢会一步步的推进。
记者:我们公司现在倡导通用GPU计算,我们有没有在这方面有更多的实验运行?是不是需要更多开发部来支持新的通用计算?
Andy Keane:我们首先定义一下什么叫做通用计算?通用计算基本上通过CG或者OpenGL,或者其他的图形语言进行图形的计算问题,一般我们会把纹理作为一些资料来进行输入之后,把这些数据进行分析,可能产出的就是纹理的颜色等等各种分析结果,CUDA主要采用C编译器,我们也有自己的一些库,但是总的来说是基于C语言的,是不是还会建立其他的库开发新的功能?基本上在C编译器上,不是真正有所谓的库,基本上就是C编译器上的开发。
记者:在Gelato里面是不是应用了CUDA,如果不是的话,CUDA是不是开发了图像方面的软件?CUDA是不是用于开发游戏运算中物理隐形方面的东西?
Andy Keane:在Gelato中没有使用CUDA,其实Gelato开发之前就已经存在开发好了,但是我们使用CUDA进行开发,这方面我们的确也有一些活动,但是具体是哪个产品我们不能告诉你,因为产品经理不会同意我这么做,如果我要提前在他的产品出来之前就向你们宣布的话,他肯定不会高兴的。实际上我们现在已经有一个产品市场上可以看到,就是纹理压缩的一个设施,或者说一个设备,主要是处理纹理还有图像等等。主要是加强一些视觉上的效果,就这个渲染器我也不能做太多评论,但是总的来说它在渲染方面还是不错的。我们也做过一些试验,但是我觉得很多开发商他们觉得物理卡价值并不高,而且兴趣也不是很大,实际上有两种方法来解决这个问题。一个就是用你的多核,物理卡的问题可以用多核CPU来解决,比如说你电脑里有4个核,一个是操作系统,一个是游戏,还有两个额外的核。另外有一部分的物理的特性可以通过GPU来解决,但是GPU实际上处理的是一些,比如说CPU适合游戏处理和游戏相关的深嵌程度比较深的物理特性,但是GPU处理的是形象,或者看起来怎么样,或者说视觉效果等等。比如说在一款游戏里面,举个简单的例子,树动的时候使用的是GPU,因为它实际上和打游戏没什么关系,但是人跨过草丛的动作就跟游戏的相关性更高,而且和AP的相关性更高,这个时候使用的就是CPU来进行处理。
记者:第一,我发现有CUDA的GPU有128个内核,就是说对一个程序员面对如此多的内核开发的时候,他如何能够知道他已经充分利用了这128个内核,也许他的程序写的不好,没有充分利用好,或者说他应该再买一个新的GPU,而不是程序的问题。
第二,我发现对于CUDA并不是把一个C的代码或者是它的程序直接翻译成GPU的语言 ,而是中间通过PTS的编译器。我就有一个问题,关于PTS编译器,我们程序员是不是可以直接编辑PTS的代码控制GPU,直接对硬件进行操作,而不需要写C语言。
安迪•凯恩:就程序员开发而言,实际上我们也准备了一系列工具帮助程序员更好的利用资源进行开发,比如说我们有4个调节器,它是(GTP)的调节器,你通过调节器可以分析是不是哪个地方出问题了,如果出问题你可以一步式的解决,这样的调节器是CPU式的调节器。另外,我们也有一个分析器,这个分析器能够帮助你分析你的编码效率怎么样,资源是不是完全利用了,或者在128个处理器中是不是都被利用了,另外我们会有一个Excel表格,上面列入不同的信息,在你编程序之前可以利用这个表格更好的利用这些资源,更好的进行程序开发。对于GPU来说,实际上它的处理速度你们已经知道了,比CPU要快得多,但是我们采用一个中间语言叫PTS,主要是为了保证背后基层的GPU快速运行的时候,整个系统还是稳定的,从C语言进行开发之后转换到PTS,这个过程也是相对来说更稳定,因为GPU处理速度非常快,我们需要找到这个中间语言能够稳定。对我们来说,我们建议程序员还要用C语言来开发,还是一个词稳定,用PTS来开发更大程度是一种工具和编译器,让你更好的接触到一些数据。这实际上跟CPU也一样,很少有人说真正的去编,基本上用一个编译器来做,编译器已经很好了,它能够保证这个系统的稳定。
记者:我们有没有开发更高级语言的计划?
Andy Keane:我们本身不是软件开发商,我们只是建立一个底层,让更多的软件开发商开展他们的东西。
#p#page_title#e#
随着NVIDIA的Tesla品牌旗下的GPU(图形处理器)运算产品和CUDA软件开发工具的使用者越来越多,为了更好地履行对客户的承诺,NVIDIA公司开设了一个专门为高性能计算(HPC)开发人员提供服务的资源社区——CUDAZone。
CUDA是世界上唯一针对GPU(图形处理器)开发的C语言开发环境。自2007年2月发布以来,CUDA帮助工程师、科学家、地球物理学家等科研工作者实现了许多新的、工作必备的海量信息处理,并且将处理速度大幅提升到了相当于之前45至400倍。
CUDAZone站点将会成为专业人士、学者以及所有对CUDA和Tesla有兴趣的人们的全球性交流中心。站点功能涵盖编程技术发布、客户聚焦、项目张贴和方法交流的论坛、CUDA工具的下载、代码实例、新闻事件等诸多内容。
NVIDIA的GPU计算事业部总经理安迪۰凯恩(Andy Keane)表示:“自HPC社区成立以来,我们通过社区了解到客户对CUDA非常支持。每天都有客户发电子邮件告诉我们,他们的工作流程运行速度得到了难以想象的提升。CUDAZone将会成为这些成果的聚集点,并为我们的用户提供一个集最新资讯、资源下载和数据更新于一体的平台。”
欲了解更多信息以及下载CUDA SDK以及工具,请登录www.nvidia.com/cuda。
Andy Keane—GPU计算事业部总经理
Andy Keane先生于2006年加盟NVIDIA公司,出任NVIDIA公司全新的GPU计算事业部的总经理,全面负责这一全新业务部门的组建,包括财务、销售、市场运作、产品规划以及推广等。
在加入NVIDIA之前,Andy Keane先生曾分别在Morphics及Ageia两家公司的创业期任职市场副总裁,这两家公司主要为电信以及消费品行业开发并行计算技术。在此以前,Andy Keane先生曾为3dfx公司和QED公司的快速发展以及最后公开上市做出了卓越贡献。其中,3dfx公司带动了消费级3D图形加速器的发展,而QED公司则是世界首批多核处理器供应商之一。
不仅如此,Andy Keane先生在Xilinx公司早期进行的可重配置计算以及FPGA系统的开发过程中,也发挥了重要作用。此外,Keane还曾任职于英特尔生产设计部门,从事容错并行计算技术的生产设计。
Andy Keane先生拥有伯克利商学院(Berkeley Business School)的MBA学位和伦斯勒理工学院(Rensselaer)的物理学学位。
Walter Mundt-Blum—专业解决方案事业部全球销售副总裁
Walter Mundt-Blum先生1955年生于德国,1978年获得电子工程硕士学位。在1978年至2000年间,Mundt-Blum先生任职于三菱电器欧洲公司,担任欧洲外围设备业务部门主管。
2000年至2002年,Mundt-Blum先生担任艾尔莎(ELSA)公司专业图形业务执行副总裁。Mundt-Blum先生于2002年加盟NVIDIA公司,现今担任NVIDIA公司专业解决方案事业部全球销售副总裁。