NVIDIA高效能运算解决方案架构师Axel Koehler日前在一场NVIDIA GPU技术会议上, 针对NVIDIA新一代Volta GPU架构及为Volta所打造的最新CUDA 9并行运算平台及程式设计模型进行介绍, 宣称Volta具备全新串流多处理器(Streaming Multiprocessor; SM)架构, CUDA 9资料库也可见许多升级, 显示带来全新程式设计模型提升及性能改善. 根据Inside HPC报导, 据Koehler所言, 当前HPC领域对运算需求逐步增加, 神经网路的复杂度也呈爆炸式成长, 在此市场趋势下, NVIDIA因而推出基于Volta架构的Tesla V100处理器, 提供资料中心人工智慧(AI), HPC及绘图需求, 宣称是面向深度学习(deep learning)与HPC最快速且最具生产力的绘图处理器(GPU). 针对全新SM微架构, Koehler表示, Volta GV100 SM是为生产力所重新设计的产品, 具备全新指令集架构(ISA), 简化发放逻辑单元(issue logic), 并拥有大型更快速的L1快取, 改善SIMT模型且支援Tensor加速, 一大特色在于相较于前一代Pascal SM, Volta SM整合了关键技术, 将L1$与共享记忆体整合达128KB, 可创造更低延迟性及串流效果, 如串流L1$拥有4倍更多频宽, 5倍能力提升等, 并可缩短与前一代Pascal的共享记忆体落差. Koehler提到的另一特色在于具备独立的执行绪排程(thread scheduling), 借此能够支援来自发散分枝陈述式资料的交错执行(interleaved execution), 以及能够执行细密的并行演算法, 且执行仍是在单一指令对应多执行绪的架构. 新的HBM2记忆体架构方面, 将运算及记忆体整合进单一封装, 拥有更多频宽及更高的能源效率, V100也可达到95%的DRAM利用率, 优于前一代P100的76% DRAM利用率. Volta GV100架构的多服务处理(MPS)功能也可见强化, 让MPS客户端可直接将运行任务传送至GPU内的工作队列(work queues), 借此可减少发射延迟性及改善吞吐量等. 应用在推论上, 则宣称Volta MPS可无需批次系统进行有效推论部署. 在整体GPU性能比较上, NVIDIA宣称V100比P100在训练加速, 推论加速, HBM2频宽, NVLink频宽等的速度表现上均有所提升, 其中训练加速的速度成长达12.5倍. 另外, 深度学习训练性能也宣称快上3倍.