nvidia の効率的なコンピューティングソリューションアーキテクトアクセルケーラーは最近、nvidia の新世代ボルタ gpu のアーキテクチャと最新の Cuda を導入9並列コンピューティングプラットフォームとプログラミングモデルは、nvidia の GPU 技術会議でボルタのために構築. ボルタは、新しいシリアルフローマルチプロセッサを持っていることを主張 (ストリーミングマルチプロセッサ; SM) アーキテクチャでは、CUDA 9 データベースはまた、改善されたパフォーマンスのための新しいプログラムの設計モデルを示す、アップグレードの数を示しています。 内部の hpc レポートによると、ケーラーによると、コンピューティングの増加の需要の hpc の現在のフィールドでは、ニューラルネットワークの複雑さも爆発している、この市場の動向では、Nvidia は、情報センター人工知能を提供するボルタレンアーキテクチャベースのテスラ V100 プロセッサを導入 ( AI)、hpc と描画の要件は、深さの学習 (深い学習) と hpc のための最速かつ最も生産的なグラフィックスプロセッサ (GPU) であると主張する。 新しい sm のアーキテクチャのために、ケーラーは言う、ボルタ GV100 SM は、新しい命令セットアーキテクチャ (ISA)、簡素化されたリリースロジックユニット (問題のロジック)、および大規模で高速な L1 キャッシュと生産性のための再設計製品です。 SIMT モデルとサポートテンソル加速度を向上させるために、1つの機能は、パスカル sm の前の世代に比べて、ボルタ sm は、l1 $ を128KB に共有メモリと l1 $ を統合するための主要な技術を統合している、などの低レイテンシとストリームの効果を作成している 5倍の能力を向上させると、パスカルの共有メモリのギャップの前の世代で短縮することができます。 ケーラーが言及するもう1つの特徴は、発散的な分岐文データからの千鳥実行 (インターリーブ実行) をサポートする独立したスレッド・スケジューリングと、細粒度の並列アルゴリズムを実行する能力である。 そして、実行は、1つの命令に対応する複数のスレッドのスキーマです。 新しい HBM2 メモリアーキテクチャは、1つのパッケージに、より多くの帯域幅と高いエネルギー効率を持つ操作とメモリを統合し、V100 はまた、前世代の838の 76% の dram の利用に優れている 95% の dram の使用率を達成することができます。 ボルタ GV100 アーキテクチャの複数のサービス処理 (mps) 機能も強化されており、mps クライアントは、実行中のタスクを GPU (ワークキュー) 内のワークキューに直接転送できるため、起動待ち時間を短縮し、スループットを向上できます。 推論に適用され、それはボルタレン MPs が効果的にバッチシステムなしで展開のために推論することができると主張する。 全体的な GPU のパフォーマンスの比較では、Nvidia は、トレーニングの加速、推論加速、HBM2 帯域幅、nvlink 帯域幅、トレーニングの速度を含むパフォーマンスの速度などの V100 よりも838を主張して12.5 回の成長を加速した。 また、学習訓練のパフォーマンスの深さも3倍の速さと主張した。