Além disso, a profundidade do desempenho do treinamento de aprendizagem também alegou ser 3 vezes mais rápido. NVIDIA para uma nova geração de arquitetura volta, pro@goodchinabrand.com

NVIDIA eficiente computação solução arquiteto Axel Koehler recentemente introduziu a NVIDIA nova geração volta GPU arquitetura e as últimas CUDA 9 plataforma de computação paralela e modelo de programação construído para volta em uma conferência de tecnologia NVIDIA GPU. Afirma que volta tem um novo multiprocessador de fluxo serial (streaming multiprocessador; SM), o banco de dados CUDA 9 também mostra um número de upgrades, mostrando um novo modelo de projeto de programa para melhor desempenho. De acordo com o relatório HPC dentro, de acordo com Koehler, o campo atual de HPC na demanda crescente de computação, a complexidade da rede neural também está explodindo, nesta tendência de mercado, a NVIDIA introduziu a arquitetura volta baseada em Tesla V100 Processor, fornecendo informações centro de informação artificial ( Ai), HPC e requisitos de desenho, pretendem ser o mais rápido e mais produtivo processador gráfico (GPU) para a aprendizagem de profundidade (Deep Learning) e HPC. Para a nova microarquitetura SM, diz Koehler, volta GV100 SM é um produto redesenhado para a produtividade com uma nova arquitetura de conjunto de instruções (ISA), uma unidade de lógica de liberação simplificada (lógica de emissão), e um cache L1 grande, mais rápido, Para melhorar o modelo simt e suporte aceleração tensor, uma característica é que, em comparação com a geração anterior de Pascal SM, volta SM integra tecnologias-chave para integrar L1 $ com memória compartilhada até 128KB, criando menor latência e efeitos de streaming, como streaming L1 $ tem 4 vezes mais largura de banda, 5 vezes a capacidade de melhorar, e pode encurtar com a geração anterior de lacuna de memória compartilhada Pascal. Outra característica que a Koehler menciona é a capacidade de ter um agendamento de threads independente que ofereça suporte a execução escalonada (execução interdeixada) de dados divergentes de instrução de ramificação e a capacidade de executar algoritmos paralelos refinados, E a execução ainda é o esquema dos vários segmentos correspondentes a uma única instrução. A nova arquitetura de memória HBM2 integra operações e memória em um único pacote, com mais largura de banda e maior eficiência energética, e a V100 também pode atingir a utilização de DRAM de 95%, que é superior à utilização de DRAM de 76% da geração anterior P100. Os recursos do serviço múltiplo de processamento de serviços (MPS) da volta GV100 também são aprimorados, permitindo que os clientes MPS transfira diretamente tarefas em execução para filas de trabalho dentro da GPU (filas de trabalho), reduzindo assim a latência de inicialização e melhorando a taxa de transferência. Aplicado na inferência, ele alega que a volta MPS pode ser efetivamente inferida para a implantação sem um sistema de lote. Na comparação de desempenho global GPU, Nvidia afirma que V100 de P100 no treinamento acelerado, inferência acelerada, HBM2 largura de banda, largura de banda nvlink, como a velocidade de desempenho, incluindo a velocidade de treinamento acelerado crescimento de 12,5 vezes vezes.