NVIDIA efficient Computing Solution architetto Axel Koehler recentemente introdotto l'architettura NVIDIA nuova generazione volta GPU e la più recente CUDA 9 piattaforma di calcolo parallelo e modello di programmazione costruito per volta in una tecnologia NVIDIA GPU conferenza. Sostiene che volta ha un nuovo multiprocessore di flusso seriale (multiprocessore in streaming; SM), il database CUDA 9 Mostra anche una serie di aggiornamenti, mostrando un nuovo modello di progettazione del programma per migliorare le prestazioni. Secondo la relazione HPC interno, secondo Koehler, il campo attuale di HPC nella crescente domanda di calcolo, la complessità della rete neurale è anche esplodere, in questa tendenza di mercato, NVIDIA ha introdotto l'architettura volta basata Tesla processore V100, fornendo Information Center intelligenza artificiale ( Ai), HPC e requisiti di disegno, pretendono di essere il processore grafico più veloce e più produttivo (GPU) per l'apprendimento approfondito (Deep Learning) e HPC. Per la nuova microarchitettura SM, Koehler dice, volta GV100 SM è un prodotto ridisegnato per la produttività con una nuova istruzione Set Architecture (ISA), un'unità logica di rilascio semplificata (logica di emissione), e una grande, cache più veloce L1, Per migliorare il modello simt e sostenere l'accelerazione tensore, una caratteristica è quella rispetto alla precedente generazione di Pascal SM, volta SM integra le tecnologie chiave per integrare L1 $ con la memoria condivisa fino a 128KB, la creazione di latenza inferiore e effetti di streaming, come lo streaming L1 $ ha 4 volte più larghezza di banda, 5 volte la capacità di migliorare, e può accorciare con la generazione precedente di Gap di memoria condivisa Pascal. Un'altra caratteristica che Koehler accenna è la capacità di avere una programmazione indipendente del filetto che sostiene l'esecuzione sfalsata (esecuzione interlasciata) dai dati divergenti di dichiarazione di ramificazione e la capacità di effettuare gli algoritmi paralleli a grana fine, E l'esecuzione è ancora lo schema dei thread multipli corrispondenti a una singola istruzione. La nuova architettura di memoria HBM2 integra le operazioni e la memoria in un unico pacchetto, con una maggiore larghezza di banda e maggiore efficienza energetica, e V100 può anche ottenere l'utilizzo di DRAM 95%, che è superiore al 76% di utilizzazione DRAM di P100 di generazione precedente. Le funzionalità MPS (multiple service Processing) dell'architettura volta GV100 sono inoltre migliorate, consentendo ai client MPS di trasferire direttamente le attività in esecuzione in code di lavoro all'interno della GPU (code di lavoro), riducendo così la latenza di avvio e migliorando la velocità effettiva. Applicato nell'inferenza, sostiene che i parlamentari di volta possono essere dedotti efficacemente per la distribuzione senza un sistema batch. Nel confronto complessivo delle prestazioni della GPU, NVIDIA sostiene che V100 di P100 nella formazione accelerata, inferenza accelerata, HBM2 larghezza di banda, larghezza di banda nvlink, come la velocità delle prestazioni, compresa la velocità di formazione accelerata crescita di 12,5 volte volte.