DPU brise l'architecture maître-esclave | fournit de nouveaux modèles de formation de machine

Dans le démarrage de 7 ans d'AI, Wave Computing a récemment introduit l'unité de traitement de flux de données multi-core de l'entreprise (DPU) lors de la conférence Hot Chips, connue sous le nom d'accélérateur GPU de 1 000 Times, Chris Nicol, responsable technologique en chef de l'entreprise, soutient que l'architecture des flux de données est le moyen le plus efficace de former des réseaux performants.

Selon The Next Platform, Nicol a une vaste expérience dans l'application de stratégies multi-core pour résoudre le problème, non seulement pour aider les plus grandes institutions de recherche en technologie de l'information et de communication de l'Australie NICTA, mais aussi la mise en place de Bell Labs a développé conjointement le premier système multiprocesseur à puce unique. Nicol croit que la formation à l'avenir à grande échelle éliminera tôt ou tard le centre de données pour changer le bord de la mise en œuvre, en mettant en évidence la valeur potentielle des composants de la DPU.

Les puces DPU de Wave Computing ont 16 000 éléments de traitement, plus de 8 000 unités d'informatique et un mécanisme à temps autonome unique utilisant une architecture reconfigurable à grain grossier avec une fréquence de 6,7 GHz. Lorsqu'aucune donnée n'est transmise , DPU entrera dans l'état inactif. DPU peut être considéré comme un mélange de processeurs FPGA et multi-core, peut gérer des milliers de composants de l'ordonnancement des diagrammes de données statiques.

Nicol a déclaré que la définition actuelle de l'opération hétérogène a un problème, c'est-à-dire que le maître est exécuté sur la CPU, l'accélérateur doit attendre que la CPU émet des instructions et Wave Computing souhaite modifier complètement cette architecture. Nicol a souligné que la nouvelle architecture d'accélérateur GPU) dans le noyau (kernel) et l'utilisation de microcontrôleurs dans la mise en œuvre de la suppression et de la migration dans le programme aura un problème de retard et une suppression de l'architecture de la CPU peut être en mode de déchargement pour obtenir plus de performances.

Nicole a souligné que la profondeur de l'apprentissage est en fait dans la programmation de logiciels en profondeur dans l'organigramme, similaire à Wave peut être dans la mise en œuvre de la composition de l'organigramme du processeur à exécuter et ce flux de travail a été utilisé pour former le réseau Par exemple, le système sera issu de la mise en œuvre des données de la carte TensorFlow, puis directement dans elle ne nécessite pas que la CPU puisse effectuer la carte de flux de données, puis réfléchie dans la puce de flux de données Wave.

Nicol a déclaré qu'il s'agissait d'un réseau reconfigurable à grain grossier, un peu similaire à l'informatique spatiale (calcul spatial), lorsque le programme compilé dans un noyau multiprocesseur, doit toujours partitionner le programme, qui est le problème de la puce multi-cœur et ouvert Le langage informatique (OpenCL) ne fournit pas de solution. Wave a son propre compilateur d'espace peut programmer, spécifier l'itinéraire, le logiciel réfléchi dans son architecture de processeur d'interconnexion étroitement couplée, ce sera plus rapide que l'utilisation de temporaire Plus vite.

Alors que ces nouvelles architectures sont très convaincantes, l'écosystème logiciel du GPU a été bien étudié dans l'apprentissage par machine, que les centres de données ultra-grands soient prêts à tolérer le risque, importent un modèle de formation complètement différent ou décident eux-mêmes.

2016 GoodChinaBrand | ICP: 12011751 | China Exports