NVIDIA高效能運算解決方案架構師Axel Koehler日前在一場NVIDIA GPU技術會議上, 針對NVIDIA新一代Volta GPU架構及為Volta所打造的最新CUDA 9並行運算平台及程式設計模型進行介紹, 宣稱Volta具備全新串流多處理器(Streaming Multiprocessor; SM)架構, CUDA 9資料庫也可見許多升級, 顯示帶來全新程式設計模型提升及性能改善. 根據Inside HPC報導, 據Koehler所言, 當前HPC領域對運算需求逐步增加, 神經網路的複雜度也呈爆炸式成長, 在此市場趨勢下, NVIDIA因而推出基於Volta架構的Tesla V100處理器, 提供資料中心人工智慧(AI), HPC及繪圖需求, 宣稱是面向深度學習(deep learning)與HPC最快速且最具生產力的繪圖處理器(GPU). 針對全新SM微架構, Koehler表示, Volta GV100 SM是為生產力所重新設計的產品, 具備全新指令集架構(ISA), 簡化發放邏輯單元(issue logic), 並擁有大型更快速的L1快取, 改善SIMT模型且支援Tensor加速, 一大特色在於相較於前一代Pascal SM, Volta SM整合了關鍵技術, 將L1$與共用記憶體整合達128KB, 可創造更低延遲性及串流效果, 如串流L1$擁有4倍更多頻寬, 5倍能力提升等, 並可縮短與前一代Pascal的共用記憶體落差. Koehler提到的另一特色在於具備獨立的執行緒排程(thread scheduling), 藉此能夠支援來自發散分枝陳述式資料的交錯執行(interleaved execution), 以及能夠執行細密的並行演演算法, 且執行仍是在單一指令對應多執行緒的架構. 新的HBM2記憶體架構方面, 將運算及記憶體整合進單一封裝, 擁有更多頻寬及更高的能源效率, V100也可達到95%的DRAM利用率, 優於前一代P100的76% DRAM利用率. Volta GV100架構的多服務處理(MPS)功能也可見強化, 讓MPS客戶端可直接將運行任務傳送至GPU內的工作隊列(work queues), 藉此可減少發射延遲性及改善吞吐量等. 應用在推論上, 則宣稱Volta MPS可無需批次系統進行有效推論部署. 在整體GPU性能比較上, NVIDIA宣稱V100比P100在訓練加速, 推論加速, HBM2頻寬, NVLink頻寬等的速度表現上均有所提升, 其中訓練加速的速度成長達12.5倍. 另外, 深度學習訓練性能也宣稱快上3倍.