- UID
- 241
- 阅读权限
- 200
- 居住地
- 北京市
- 注册时间
- 2009-2-23
管理员
- 注册时间
- 2009-2-23
|
使用多卡来加速达芬奇的相信不在少数,很多人也应该知道那个著名的DEBUG参数
比如说3卡的时候也就是
LsManager.3.NumGPUs = 3 (打算使用的GPU数量)
LsManager.3.GPUMapping = 0 1 2(打算使用的具体GPU)
LsManager.3.GPUMappingEnable = 1 (开启第二行的GPU使用选择)
(为了描述清楚,我在这里都是用R3D 1/2 下 BLUR100节点的数量来描述GPU加速的性能)
在默认情况下,达芬奇的官方手册是不推荐使用GUI的显卡也参与预算的,通常建议是使用一片较低性能,单槽的单独GUI卡。很多人对此感到不解,为什么不使用这片GUI卡也参与运算,因为实际的最终CUDA流处理器数量上是肯定提升的。
而事实上官方的这种做法是有道理的,因为经过反复的尝试,我发现了一些关于具体加速性能的特点。
首先,在单卡的情况下,GUI卡又做运算卡,大概会消耗1个到1.5个节点的BLUR能力,而如果同时再上屏的话大概还会消耗1个节点,目前驱动较稳定的GTX480(GF100核心,最新驱动下GTX580也可使用)在做单独加速卡的时候,大概有10个节点的能力,而单卡做GUI又上屏的时候大概在7到8节点也是如此。而当使用3卡GTX480的时候,理论上节点数量应该可以提高到27个左右,可是实际测试下来我发现最多只有25,这里的GPU加速性能产生了1到2个节点的偏差。
本着认真和实事求是的态度,我在另一台朋友的机器上也做了测试,他使用了超微的SuperServer 7046GT-TRF 工作站(这是超微面向图形计算市场专门定制的1个高级工作站),CPU为X5690X2,显卡配置为Quadro4000GUI+GTX480双卡。我给他安装了黑苹果以后,也进行了简单的测试。众所周知,Quadro4000的单卡性能是比较弱的(不要拍砖),所以我把本来用于Quadro4000GUI也设置为参与加速,一个很奇怪的情况出现了,当如此设置的时候,GPU加速性能急剧下降,只能有6到7个节点能实时。
这让人百思不得其解,但是答案其实慢慢显现了,达芬奇使用GPU的方式和很多人臆想的并不相同,我猜测达芬奇是以最低性能的那块卡来作为基准,同时使用多卡的,也就是说这个系统中Quadro4000卡当也做加速卡的时候限制了GTX480的发挥,这恐怕也是为什么官方的说明文档默认情况下单独使用GUI卡。而我的系统中3卡 480的25个节点的能力就不奇怪了(GUI的单卡8节点左右)
但是当再次去除了DEBUG参数以后,加速性能有所恢复,可还是没有达到20个节点BLUR100的能力,依然有不小的偏差。
这次就有点奇怪了,因为按理说这时候并没有任何问题。
剩下的就是不断尝试参数,终于发现了秘密。
很多人习惯上理解达芬奇使用多卡GPU默认就是接着显示端口的是GUI卡,但是其实这不正确,依然需要正确设置第二项。
LsManager.3.GPUMapping = 0 1 2(打算使用的具体GPU)
一般GUi+双卡设置的时候都是
LsManager.3.GPUMapping = 0 1 (打算使用的具体GPU)
但是当我尝试性的修改组合到
LsManager.3.GPUMapping = 0 2(打算使用的具体GPU)
也就是说使用0 和 2 这两个GPU的时候,节点性能立刻猛增,达到了理论值20个BLUR100节点!也就说在达芬奇里,这里的GPU MAPPING对应的卡并不是大家简单认为的0就是GUi 之后的是加速卡,还是要具体情况具体设置的。在这个例子里,quadro4000卡就被识别为GPU 编号 1,那么正确设置以后性能就很正常了。
整体来看,8.2的正式版达芬奇对GPU的使用已经很有效果了,尤其是多卡对于性能的提升更是成直接的线性关系,多卡的效能非常强大。我听到很多商家鼓吹说多卡无用,这个其实并不正确,多卡无用说的主要是LITE版对于GPU数量的使用限制,对于正式版的用户,已经花费很多,还是应该搭起这么很有性价比的多卡系统,尤其是在NV的最新驱动下,GTX580这样的强卡也可以使用在CUBIX以及MAC PRO上!
希望大家看了这篇文章,可以简单的设置来达到物尽其用,
该贴已经同步到 vvhh1234的微博 |
|