NVIDIA挾二代Saturn V系統 | 進擊全球超級電腦競賽【中国好品牌网】

NVIDIA在2016年SC16大會上曾推出其首代基於DGX-1伺服器打造的 'Saturn V' 系統, 是基於NVIDIA前一代 'Pascal' 的Tesla P100繪圖晶片(GPU)加速器所打造, 但仍未能創造令業界驚豔的性能表現, 雖然一般來說全球一線晶片製造商對自身用於設計及測試的巨型超級電腦的細節多守口如瓶, 不過NVIDIA在2017年SC17大會上仍推出其下一代 'Saturn V' 混合中央處理器(CPU)與GPU的叢集系統, 受惠於在NVIDIA自有DGX-1伺服器平台中采自有新一代 'Volta' Tesla V100 GPU加速器, 實質帶動下一代Saturn V性能大幅提升及創造更廣泛多樣性, 是否能在未來Top 500全球超級電腦排名中看到好排名表現, 值得觀察. 根據The Next Platform網站報導, NVIDIA新一代Saturn V有著660個節點, 與首代Saturn V相同的是每個節點配有相同的8顆GPU加速器, 不過是采更快速的NVLink 2.0匯流排來連結GPU, 以共用存儲器及工作, 合計擁有5,280顆Volta GPU加速器, 可創造單精度每秒80千兆次浮點運算峰值效能(Petaflop), 以及雙精度40Petaflop峰值效能. 在上述性能表現下, 理論上可排進全球前十大超級電腦系統排名之列, 即使在雙精度浮點性能上同樣如此, 這可說是受惠於所採用的Tensor Core點(dot)產品引擎, 讓新一代Saturn V系統在機器學習(ML)負載的有效性能表現可高達660Petaflop. NVIDIA電腦伺服器架構師Phil Rogers在SC17大會上也介紹新一代Saturn V系統的結構, 在小型叢集配置上考量到散熱問題, 不能過度在同一機架上堆疊放置DGX-1伺服器平台, 因此NVIDIA僅於1個機架上配置6個DGX-1, 此小型叢集最多即兩個機架, 12個DGX-1節點. 中型叢集配置上, 可見NVIDIA是將3個小型叢集配置組織而成, 意即由每個機架共有6個節點的共6個機架所組成, NVIDIA將此叢集稱為 'Pod' , 並稱能夠複製, 再擴大叢集配置規模, 因而可擴張至大型叢集規模, 此大型叢集可將4組DGX-1 'Pod' 結合在一起, 每個 'Pod' 共有36個DGX-1節點, 因此合計共有144個DGX-1節點. NVIDIA稱訓練任務最理想情況是在一個 'Pod' 內進行, 以最小化 'Pod' 之間的流量負荷. 價格方面, 雖然NVIDIA在其下一代Saturn V系統的升級計劃中沒有提到價格, 不過其DGX-1V已有14.9萬美元的標價, 加上此次的InfiniBand網路稍微更複雜, 因此報導預期下一代Saturn V系統標價可能約在1億~1.1億美元, 此價格預測是預期該Saturn V系統有著全人工智慧(AI)堆疊支援, 無外部儲存以及具備強大的EDR InfiniBand網路. 報導預測, 若NVIDIA下一代Saturn V系統參與Linpack效能測試, 在2018年應可得到約22.3Petaflop的表現, 這樣的表現可望讓下一代Saturn V系統在Top 500全球超級電腦排名中排在執行系統測試全球第3高, 登上全球一級超級電腦之列.