En outre, la profondeur de la performance de formation d'apprentissage a également prétendu être 3 fois plus rapide. NVIDIA à une nouvelle génération de l'ar@goodchinabrand.com

NVIDIA efficient Computing solution architecte Axel Koehler récemment introduit le NVIDIA nouvelle génération de l'architecture Volta GPU et le dernier CUDA 9 plate-forme de calcul parallèle et le modèle de programmation construit pour Volta dans une conférence de technologie NVIDIA GPU. Prétend que Volta possède un nouveau multiprocesseur de flux série (multiprocesseur en continu; SM) architecture, la base de données CUDA 9 montre également un certain nombre de mises à niveau, montrant un nouveau modèle de conception de programme pour améliorer les performances. Selon le rapport de l'intérieur HPC, selon Koehler, le domaine actuel de la HPC dans la demande croissante pour l'informatique, la complexité du réseau neural est également exploser, dans cette tendance du marché, NVIDIA a introduit l'architecture de Volta basé Tesla V100 processeur, fournissant de l'intelligence artificielle Centre d'information ( AI), HPC et les exigences de dessin, prétendent être le processeur graphique le plus rapide et le plus productif (GPU) pour l'apprentissage approfondi (deep learning) et HPC. Pour la nouvelle microarchitecture SM, Koehler dit, Volta GV100 SM est un produit remanié pour la productivité avec une nouvelle architecture d'ensemble d'instructions (ISA), une unité logique de libération simplifiée (logique de problème), et une grande, plus rapide cache L1, Pour améliorer le modèle simt et soutenir l'accélération du tenseur, une caractéristique est que, par rapport à la génération précédente de Pascal SM, Volta SM intègre les technologies clés pour intégrer L1 $ avec mémoire partagée jusqu'à 128 Ko, ce qui crée une latence inférieure et des effets de streaming, tels que le streaming L1 $ a 4 fois plus de 5 fois la capacité d'améliorer, et peut raccourcir avec la génération précédente de l'espace mémoire partagée de Pascal. Une autre caractéristique que Koehler mentionne est la possibilité d'avoir une planification de threads indépendantes qui prend en charge l'exécution échelonnée (exécution entrelacée) à partir de données d'instruction de branchement divergentes, et la capacité d'exécuter des algorithmes parallèles à grain fin, Et l'exécution est toujours le schéma des threads multiples correspondant à une instruction unique. La nouvelle architecture de mémoire HBM2 intègre les opérations et la mémoire dans un seul paquet, avec plus de bande passante et une plus grande efficacité énergétique, et V100 peut également atteindre 95% d'utilisation DRAM, ce qui est supérieur à l'utilisation de 76% DRAM de la génération précédente P100. Les fonctionnalités MPS (multiple service Processing) de la Volta GV100 architecture sont également améliorées, permettant aux clients MPS de transférer directement des tâches en cours d'exécution aux files d'attente de travail dans le GPU (files d'attente de travail), réduisant ainsi la latence de lancement et améliorant le débit. Appliqué dans l'inférence, il prétend que les MPS de Volta peuvent être effectivement déduits pour le déploiement sans système de lot. Dans la comparaison globale des performances GPU, NVIDIA prétend que V100 que P100 dans la formation accélérée, inférence accélérée, HBM2 bande passante, la bande passante nvlink, comme la vitesse de la performance, y compris la vitesse de la formation accélérée de croissance de 12,5 fois.