엔비디아 효율적인 컴퓨팅 솔루션 설계자 axel koehler 최근 엔비디아의 새로운 세대 볼타 gpu 아키텍처 및 최신 Cuda 9 병렬 컴퓨팅 플랫폼과 프로그래밍 모델은 엔비디아 GPU의 기술 컨퍼런스에서 볼타에 대 한 내장을 도입 했다. 볼타가 새로운 직렬 흐름 다중 프로세서를가지고 있다고 주장 합니다 (다중 프로세서 스트리밍; SM) 아키텍처, CUDA 9 데이터베이스는 또한 향상 된 성능을 위한 새로운 프로그램 디자인 모델을 보여주는 여러 가지 업그레이드를 보여줍니다. 내부 hpc 보고서에 따르면, koehler, 컴퓨팅에 대 한 수요 증가에 HPC의 현재 필드에 따르면, 신경 네트워크의 복잡도도,이 시장 동향에, Nvidia는 볼타 건축 기반 테슬라 V100 프로세서를 도입, 폭발입니다 정보 센터 인공 지능을 제공 ( AI), hpc 및 드로잉 요구 사항, 심도 있는 학습 (깊은 학습) 및 HPC를 위한 가장 빠르고 생산적인 그래픽 프로세서 (GPU) 주장. 새로운 SM 마이크로아키텍처를 위해, koehler는 말한다, 볼타 GV100 SM 새로운 명령 집합 건축 술 (ISA), 단순화 된 방출 논리 단위 (문제점 논리) 및 크고, 더 빠른 L1 캐시를 가진 생산력을 위한 재설계 한 제품 이다, simt 모델을 개선 하 고 텐서 가속도를 지원 하려면, 하나의 기능은 파스칼 에스엠의 이전 세대에 비해, 볼타 에스엠은 128 킬로바이트까지 공유 메모리와 l1 $를 통합 하는 핵심 기술을 통합, 낮은 지연 및 스트리밍 효과를 만드는 등 l1 $ 스트리밍 4 배 더 많은 대역폭을가지고, 5 배 향상 시킬 수 있는 능력, 그리고 파스칼의 공유 메모리 격차의 이전 세대와 함께 단축 될 수도 있습니다. koehler가 언급 하는 또 다른 기능은 분기 된 실행 (인터리브 실행)을 분기 문 데이터에서 지 원하는 독립적인 스레드 스케줄링을 가질 수 있고 세분화 된 병렬 알고리즘을 수행할 수 있는 기능입니다. 및 실행은 여전히 단일 명령에 해당 하는 다중 스레드의 스키마입니다. 새로운 HBM2 메모리 아키텍처는 작업 및 메모리를 단일 패키지로 통합 하 여 대역폭과 더 높은 에너지 효율을 구현 하 고, V100는 이전 세대 P100의 76% dram 활용도 보다 95% dram 활용도를 달성할 수 있습니다. 볼타 GV100 아키텍처의 여러 서비스 처리 (mps) 기능도 향상 되어 mps 클라이언트가 실행 중인 작업을 직접 전송 하 여 GPU (작업 대기열) 내에서 작업 대기열로 이동 함으로써 시작 대기 시간을 줄이고 처리량을 향상 시킬 수 있습니다. 유추에 적용, 그것은 볼타 MPs 효과적으로 배치 시스템 없이 배포를 위해 유추 될 수 있다고 주장 한다. 전체 GPU의 성능 비교에서, Nvidia의 주장은 훈련 가속, 추론 가속, HBM2 대역폭, 12.5 번 시간의 교육 가속 성장의 속도를 포함 하 여 성능의 속도와 같은 nvlink 대역폭에 P100 보다 V100.