เทคโนโลยีการประมวลผลที่มีประสิทธิภาพ nvidia Koehler เมื่อเร็วๆนี้เปิดตัว nvidia รุ่นใหม่ Volta GPU สถาปัตยกรรมและแพลตฟอร์มการประมวลผลแบบขนานล่าสุด Cuda 9 และรุ่นการเขียนโปรแกรมที่สร้างขึ้นสำหรับ Volta ในการประชุมเทคโนโลยี Nvidia GPU อ้างว่า Volta มีการประมวลผลอนุกรมขั้นตอนใหม่ (การส่งกระแสข้อมูลมัลติโปรเซสเซอร์ SM) สถาปัตยกรรมฐานข้อมูล CUDA 9 ยังแสดงจำนวนของการปรับรุ่นที่แสดงรูปแบบการออกแบบโปรแกรมใหม่สำหรับประสิทธิภาพที่ดีขึ้น ตามที่อยู่ภายใน HPC รายงานตาม Koehler, เขตข้อมูลปัจจุบันของ HPC ในความต้องการที่เพิ่มขึ้นสำหรับการใช้งานคอมพิวเตอร์, ความซับซ้อนของเครือข่ายประสาทนอกจากนี้ยังมีการขยายตัว, ในแนวโน้มตลาดนี้, Nvidia แนะนำสถาปัตยกรรม Volta ตามเทสลา V100 ตัวประมวลผล, ให้ศูนย์ข้อมูลปัญญาประดิษฐ์ ( AI), HPC และความต้องการรูปวาดอ้างว่าเป็นหน่วยประมวลผลกราฟิกที่เร็วที่สุดและมีประสิทธิภาพมากที่สุด (GPU) สำหรับการเรียนรู้ลึก (การเรียนรู้ลึก) และ HPC สำหรับ Microarchitecture SM ใหม่, Koehler กล่าวว่า, Volta GV100 SM เป็นผลิตภัณฑ์ที่ได้รับการออกแบบใหม่สำหรับผลผลิตที่มีการตั้งค่าการเรียนการสอน (ISA), หน่วยตรรกะปล่อยอย่างง่าย (ตรรกะการตัดสินค้าจากคลัง), และมีขนาดใหญ่, แคช L1, เพื่อปรับปรุงรูปแบบ SIMT และสนับสนุนการเร่ง tensor, คุณลักษณะหนึ่งคือว่าเมื่อเทียบกับรุ่นก่อนหน้าของ, Volta sm บูรณาการเทคโนโลยีที่สำคัญในการรวม l1 $ กับหน่วยความจำที่ใช้ร่วมกันถึง 128KB, การสร้างเวลาแฝงที่ต่ำกว่าและผลกระทบของกระแสข้อมูลเช่นการส่งกระแสข้อมูล l1 $ มี4ครั้งแบนด์ ความสามารถในการปรับปรุงได้5ครั้งและสามารถลดระยะห่างของช่องว่างหน่วยความจำที่ใช้ร่วมกันได้เป็นครั้งคราว คุณลักษณะอื่นที่ Koehler mentions คือความสามารถในการมีการจัดตารางเวลาของเธรดอิสระที่สนับสนุนการดำเนินการเหลื่อม (interleaved การดำเนินการ) จากข้อมูลที่แตกต่างกันรายงานและความสามารถในการดำเนินการขั้นตอนวิธีการแบบขนานที่ดี และการดำเนินการยังคง schema ของเธรดหลายที่สอดคล้องกับคำสั่งเดียว สถาปัตยกรรมหน่วยความจำ HBM2 ใหม่รวมการดำเนินงานและหน่วยความจำเข้ากับแพคเกจเดียวที่มีแบนด์วิดธ์มากขึ้นและประสิทธิภาพการใช้พลังงานที่สูงขึ้นและ V100 ยังสามารถบรรลุ๙๕% การใช้งาน dram ซึ่งเป็นที่ดีที่สุดสำหรับการทำงาน๗๖% dram ของ P100 รุ่นก่อนหน้านี้ นอกจากนี้ยังมี Volta การประมวลผลหลายบริการ (MPS) ของสถาปัตยกรรมที่ได้รับการปรับปรุงให้ลูกค้า MPS โดยตรงสามารถถ่ายโอนงานไปยังคิวการทำงานภายใน GPU (คิวการทำงาน) จึงลดการเปิดใช้งานเวลาแฝงและเพิ่มอัตราความเร็ว ใช้ใน inference, มันอ้างว่า MPs Volta สามารถสรุปได้อย่างมีประสิทธิภาพสำหรับการปรับใช้โดยไม่ต้องระบบชุด. ในการเปรียบเทียบประสิทธิภาพการทำงานของ GPU โดยรวม, Nvidia อ้างว่า V100 กว่า P100 ในการฝึกอบรม, inference เร่ง, แบนด์วิดธ์ HBM2, แบนด์วิดธ์ nvlink เช่นความเร็วของประสิทธิภาพการทำงานรวมทั้งความเร็วของการฝึกอบรมเร่งการเจริญเติบโตของ๑๒.๕ครั้ง