El arquitecto de la solución informática eficiente de NVIDIA Axel Koehler introdujo recientemente la arquitectura de la nueva generación Volta GPU de NVIDIA y la última plataforma de cómputo en paralelo de CUDA 9 y el modelo de programación construido para Volta en una conferencia de tecnología NVIDIA GPU. Afirma que Volta tiene un nuevo multiprocesador de flujo en serie (multiprocesador de streaming; SM), la base de datos CUDA 9 también muestra una serie de actualizaciones, mostrando un nuevo modelo de diseño de programa para mejorar el rendimiento. Según el informe de HPC interno, según Koehler, el campo actual de la HPC en la demanda cada vez mayor para la informática, la complejidad de la red neuronal también está explotando, en esta tendencia del mercado, NVIDIA introdujo la arquitectura del volta basó el procesador de Tesla V100, proporcionando inteligencia artificial del centro de información ( AI), HPC y requisitos de dibujo, pretende ser el procesador de gráficos más rápido y productivo (GPU) para el aprendizaje de profundidad (Deep Learning) y HPC. Para la nueva microarquitectura SM, dice Koehler, Volta GV100 SM es un producto rediseñado para la productividad con una nueva arquitectura de conjunto de instrucciones (ISA), una unidad de lógica de liberación simplificada (lógica de emisión), y una caché L1 grande y más rápida, Para mejorar el modelo SIMT y soportar la aceleración de tensor, una característica es que en comparación con la generación anterior de Pascal SM, Volta SM integra tecnologías clave para integrar L1 $ con memoria compartida hasta 128KB, la creación de menor latencia y efectos de streaming, como la transmisión de L1 $ tiene 4 veces más ancho de banda, 5 veces la capacidad de mejorar, y puede acortar con la generación anterior de la brecha compartida de la memoria de Pascal. Otra característica que Koehler menciona es la capacidad de tener una programación de subprocesos independiente que admita la ejecución escalonada (ejecución intercalada) de los datos de las instrucciones de ramificación divergentes y la capacidad de realizar algoritmos paralelos de grano fino, Y la ejecución sigue siendo el esquema de los múltiples subprocesos que corresponden a una sola instrucción. La nueva arquitectura de memoria HBM2 integra las operaciones y la memoria en un solo paquete, con más ancho de banda y mayor eficiencia energética, y V100 también puede lograr 95% de utilización de DRAM, que es superior a la utilización de DRAM 76% de la generación anterior P100. Las funcionalidades de procesamiento múltiple de servicios (MPS) de Volta GV100 Architecture también se han mejorado, lo que permite a los clientes de MPS transferir directamente tareas en ejecución a colas de trabajos dentro de la GPU (colas de trabajos), reduciendo así la latencia del lanzamiento y mejorando el rendimiento. Aplicado en inferencia, afirma que Volta MPS puede ser efectivamente deducido para su despliegue sin un sistema por lotes. En la comparación general de rendimiento de la GPU, NVIDIA afirma que V100 que P100 en el entrenamiento acelerado, inferencia acelerada, HBM2 ancho de banda, nvlink ancho de banda, como la velocidad de rendimiento, incluyendo la velocidad de entrenamiento acelerado crecimiento de 12,5 veces veces.