NVIDIA挟二代Saturn V系统 | 进击全球超级电脑竞赛【中国好品牌网】

NVIDIA在2016年SC16大会上曾推出其首代基于DGX-1服务器打造的 'Saturn V' 系统, 是基于NVIDIA前一代 'Pascal' 的Tesla P100绘图芯片(GPU)加速器所打造, 但仍未能创造令业界惊艳的性能表现, 虽然一般来说全球一线芯片制造商对自身用于设计及测试的巨型超级电脑的细节多守口如瓶, 不过NVIDIA在2017年SC17大会上仍推出其下一代 'Saturn V' 混合中央处理器(CPU)与GPU的丛集系统, 受惠于在NVIDIA自有DGX-1服务器平台中采自有新一代 'Volta' Tesla V100 GPU加速器, 实质带动下一代Saturn V性能大幅提升及创造更广泛多样性, 是否能在未来Top 500全球超级电脑排名中看到好排名表现, 值得观察. 根据The Next Platform网站报导, NVIDIA新一代Saturn V有着660个节点, 与首代Saturn V相同的是每个节点配有相同的8颗GPU加速器, 不过是采更快速的NVLink 2.0汇流排来连结GPU, 以共用存储器及工作, 合计拥有5,280颗Volta GPU加速器, 可创造单精度每秒80千兆次浮点运算峰值效能(Petaflop), 以及双精度40Petaflop峰值效能. 在上述性能表现下, 理论上可排进全球前十大超级电脑系统排名之列, 即使在双精度浮点性能上同样如此, 这可说是受惠于所采用的Tensor Core点(dot)产品引擎, 让新一代Saturn V系统在机器学习(ML)负载的有效性能表现可高达660Petaflop. NVIDIA电脑服务器架构师Phil Rogers在SC17大会上也介绍新一代Saturn V系统的结构, 在小型丛集配置上考量到散热问题, 不能过度在同一机架上堆叠放置DGX-1服务器平台, 因此NVIDIA仅于1个机架上配置6个DGX-1, 此小型丛集最多即两个机架, 12个DGX-1节点. 中型丛集配置上, 可见NVIDIA是将3个小型丛集配置组织而成, 意即由每个机架共有6个节点的共6个机架所组成, NVIDIA将此丛集称为 'Pod' , 并称能够复制, 再扩大丛集配置规模, 因而可扩张至大型丛集规模, 此大型丛集可将4组DGX-1 'Pod' 结合在一起, 每个 'Pod' 共有36个DGX-1节点, 因此合计共有144个DGX-1节点. NVIDIA称训练任务最理想情况是在一个 'Pod' 内进行, 以最小化 'Pod' 之间的流量负荷. 价格方面, 虽然NVIDIA在其下一代Saturn V系统的升级计划中没有提到价格, 不过其DGX-1V已有14.9万美元的标价, 加上此次的InfiniBand网络稍微更复杂, 因此报导预期下一代Saturn V系统标价可能约在1亿~1.1亿美元, 此价格预测是预期该Saturn V系统有着全人工智能(AI)堆叠支持, 无外部储存以及具备强大的EDR InfiniBand网络. 报导预测, 若NVIDIA下一代Saturn V系统参与Linpack效能测试, 在2018年应可得到约22.3Petaflop的表现, 这样的表现可望让下一代Saturn V系统在Top 500全球超级电脑排名中排在执行系统测试全球第3高, 登上全球一级超级电脑之列.