NVIDIA effiziente Computing Solution Architekt Axel Koehler hat vor kurzem die NVIDIA New Generation Volta GPU-Architektur und die neueste CUDA 9 Parallel Computing-Plattform und Programmier-Modell für Volta in einer NVIDIA GPU-Technologie-Konferenz gebaut. Behauptet, dass Volta einen neuen Serial-Flow Mehrprozessor (Streaming Multiprozessor; SM)-Architektur, die CUDA 9-Datenbank zeigt auch eine Reihe von Upgrades, zeigt ein neues Programm-Design-Modell für eine verbesserte Leistung. Nach dem Inside HPC-Bericht, nach Koehler, das aktuelle Feld der HPC in der steigenden Nachfrage nach Computing, die Komplexität des neuronalen Netzes ist auch explodiert, in diesem Markttrend, NVIDIA führte die Volta-Architektur auf der Grundlage Tesla V100 Prozessor, Bereitstellung von Informationszentrum künstliche Intelligenz ( AI), HPC-und Zeichnungsanforderungen, Anspruch auf die schnellste und produktivste Grafikprozessor (GPU) für tiefes lernen (Deep Learning) und HPC. Für die neue SM-Mikroarchitektur, sagt Koehler, Volta GV100 SM ist ein neu gestaltetes Produkt für die Produktivität mit einer neuen Anweisung Set Architecture (ISA), eine vereinfachte Version Logic-Einheit (Issue Logic), und eine große, schnellere L1-Cache, Zur Verbesserung der SIMT Modell und Unterstützung Tensor Beschleunigung, ein Merkmal ist, dass im Vergleich zu der vorherigen Generation von Pascal SM, Volta SM integriert Schlüsseltechnologien zur Integration von L1 $ mit Shared Memory bis zu 128KB, wodurch geringere Latenz und Streaming-Effekte, wie zB Streaming L1 $ hat 4 mal mehr Bandbreite, 5 Mal die Fähigkeit zu verbessern, und kann mit der vorherigen Generation von Pascal es Shared Memory GAP zu verkürzen. Ein weiteres Feature, das Koehler erwähnt, ist die Fähigkeit, eine unabhängige Thread-Planung zu haben, die eine gestaffelte Ausführung (verdoppelte Ausführung) von unterschiedlichen Verzweigungs Anweisungs Daten und die Fähigkeit zur Ausführung fein abgestufter paralleler Algorithmen ermöglicht, Und die Ausführung ist immer noch das Schema der mehreren Threads, die einer einzelnen Anweisung entsprechen. Die neue HBM2-Speicherarchitektur integriert Operationen und Speicher in ein einzelnes Paket mit mehr Bandbreite und höherer Energieeffizienz, und V100 kann auch 95% DRAM-Auslastung erzielen, was der 76%-DRAM-Auslastung der Vorgängergeneration P100 überlegen ist. Die Features der Volta GV100-Architektur werden ebenfalls erweitert, sodass MPS-Clients ausgeführte Aufgaben direkt an Arbeitswarteschlangen innerhalb der GPU (Arbeitswarteschlangen) übertragen können, wodurch die Start Latenz verringert und der Durchsatz verbessert wird. In Schlussfolgerungen, behauptet er, dass Volta MPS effektiv für die Bereitstellung ohne Batch-System abgeleitet werden kann. In der gesamten GPU Performance Vergleich, behauptet NVIDIA, dass V100 als P100 in der Ausbildung beschleunigt, Inferenz beschleunigt, HBM2 Bandbreite, nvlink Bandbreite, wie die Geschwindigkeit der Leistung, einschließlich der Geschwindigkeit der Ausbildung beschleunigtes Wachstum von 12,5 Mal Mal.