显卡是个人计算机基础的组成部分之一,将计算机系统需要的显示信息进行转换驱动显示器,并向显示器提供逐行或隔行扫描信号,控制显示器的正确显示,是连接显示器和个人计算机主板的重要组件,是“人机”的重要设备之一,其内置的并行计算能力现阶段也用于深度学习等运算。 本文约1900字,阅读需要3分钟(全文浏览)在GTC 2012大会上,NVIDIA CEO黄仁勋公布了新一代Tesla加速卡的细节,但这次发布的Tesla显卡被认为是双胞胎,一个是基于双核GK104架构Tesla K10,另一个是采用真正的全新架构,基于GK110内核Tesla K20。 K10和K20的特点不同,关键点也不同。 我们先来看看 K10。它的物理外观与 GTX 690 显卡没有什么不同,但 NVIDIA 公布的几个参数却很耐人寻味。单精度浮点能力为4.58TFLOPS,带宽为320GB/s。作为对比,GTX 680单精度计算能力3.09TFLOPS,192GB/s带宽,而GTX 690也有5.62TFLOPS,384GB/s带宽,上一代Fermi核心浮点计算能力是1. 58TFLOPS,带宽192GB/s。 从参数上看,K10实现了NVIDIA宣称的Fermi家族单精度浮点能力的3倍,但仅比GTX 680高出50%,带宽更是仅高出67%左右(需要支持ECC纠错,显存频率下降),明显不如GTX 690显卡。 由于架构相同,Tesla K10明显在核心和显存频率上有所妥协。因为GK104架构能效比非常高,而且HPC领域对功耗和发热不是很敏感,不知道NVIDIA为什么采用了K10。规格设置为低于 GTX 690。 现场图片并未公布K10的显存容量和TDP信息,但GeForce GRID页面上的K520显卡规格与K10相同,显存容量为8GB,TDP为250W。两者其实都是双核GK104显卡。 Tesla K10也是8GB显存,250W TDP。 (这个功耗比GTX 690的300W低,可能是规格降低的最可能的解释) 特斯拉K10现在可以发货了,但这不是重点。我个人觉得它只是一个过渡产品,扮演消防员的角色,因为GK104天生弱的双精度计算能力注定会在HPC市场。成绩斐然,英伟达之所以推GTX 690上阵,是因为GK110架构来得比预期晚。 GK110 是 NVIDIA 为高性能 GPU 计算市场开发的架构。一直有传言说它会在今年 8 月发布,但 NVIDIA 给出的日期是今年第四季度。无论是28nm产能还是芯片本身,这个一年中大部分时间的空白期,总是需要有人先顶上去。这是K10的使命。 特斯拉 K20 和 GK110 架构 NVIDIA对K20的描述是“3倍双精度浮点性能”,并支持Hyper-Q、Dynamic Parallelism等多种并行计算技术,这些技术在现有的GK104架构中是不具备的。 NVIDIA的PDF文档介绍了GK110 SMX架构,也是192个CUDA核心 必须承认,之前泄露的GK110架构信息是错误的。 GK110的SMX架构其实和GK104是一样的,192个CUDA核心,32组SFU单元,32个LD/ST单元。 GK110架构图 除了其他功能单元,GK110核心共有15组SMX单元和2880个CUDA核心,但Heise声称并非所有单元都启用。实际上,SMX 单元可能只有 13-14 套。实际的CUDA核心是2496或2688。 显存位宽为384bit,已经得到黄仁勋和NVIDIA CTO的确认。由于CUDA核数比之前的报道少了,显存位宽自然减少到384bit。如果GK104的6Gbps显存速率保持不变,那么GK110的带宽将达到288GB/s,最终超过AMD GCN架构的260GB/s Up。 NVIDIA 给出的 3 倍双精度浮点性能与 GF110 显卡或具有 GF110 内核的 Tesla 加速卡进行比较。 GF110的单精度浮点能力是1.58TFLOPS,显卡中的双精度是单精度的1/4,也就是0.4TFLOPS,但是GF110的双精度能力核心Tesla卡可以达到单精度1/2,约为0.8TFLOPS。 这样,如果基于显卡,GK110的双精度浮点性能大约是1.2TFLOPS以上,如果是Tesla卡的3倍,则是2.4TFLOPS或者更多,既然后者已经超过了之前传闻的2TFLOPS能力,那么GK110的双精度浮点能力应该是1.2TFLOPS或者更高。 特斯拉K20配备6pin+8pin供电接口 核心面积和TDP未知,但K20配备6pin和8pin电源接口,最大TDP不会超过300W。晶体管的数量也是70亿,准确的说是71亿。
|
温馨提示:喜欢本站的话,请收藏一下本站!