DPU rompe la arquitectura maestro-esclavo | proporciona nuevos patrones de entrenamiento de la máquina@goodchinabrand.com

En el lanzamiento de la IA de 7 años de edad, Wave Computing introdujo recientemente la unidad de procesamiento de flujo de datos (DPU) multi-núcleo de la compañía en la conferencia de Hot Chips, conocida como el acelerador de la GPU de 1.000 Times, Chris Nicol, director de tecnología de la compañía, sostiene que la arquitectura de flujo de datos es la forma más efectiva de entrenar redes de alto rendimiento.

De acuerdo con The Next Platform, Nicol tiene una amplia experiencia en la aplicación de estrategias multi-núcleo para resolver el problema, no sólo para ayudar a las más grandes de Australia y las instituciones de investigación de tecnología de la comunicación NICTA, sino también establecer Bell Labs desarrollado conjuntamente el primer procesador único sistema de chip único. Nicol cree que el futuro entrenamiento a gran escala eliminará tarde o temprano el centro de datos para cambiar el borde de la implementación, resaltando el valor potencial de los componentes de la DPU.

Los chips DPU de Wave Computing tienen 16.000 elementos de procesamiento, más de 8.000 unidades de computación y un mecanismo único de auto-temporización que utiliza una arquitectura reconfigurable de grano grueso con una frecuencia de 6.7GHz. Cuando no se pasan datos , DPU entrará en estado inactivo.PDU puede ser visto como una mezcla de FPGA y procesadores multi-núcleo, puede manejar miles de componentes de la programación de diagramas de flujo de datos estáticos.

Nicol dijo que la definición actual de la operación heterogénea tiene un problema, es decir, el maestro se ejecuta en la CPU, el acelerador debe esperar a que la CPU para emitir instrucciones, y Wave Computing quiere cambiar completamente esta arquitectura.Nicol señaló que la nueva arquitectura del acelerador GPU) en el núcleo (kernel) y el uso de microcontroladores en la implementación de la eliminación y la migración en el programa tendrá un problema de retardo, y una eliminación de la arquitectura de la CPU puede estar en el modo de descarga para obtener más beneficios de rendimiento.

Nicole señaló que la profundidad de aprendizaje es en realidad en la profundidad de la programación de software de aprendizaje en el diagrama de flujo, similar a la onda puede ser en la aplicación de la composición del diagrama de flujo en el procesador para ejecutar, y este flujo de trabajo se ha utilizado para formar la red Por ejemplo, el sistema será a partir de la implementación de los datos del mapa TensorFlow, y luego directamente en él no requiere la CPU puede realizar el mapa de flujo de datos, y luego se refleja en el chip de flujo de datos Wave.

Nicol dijo que se trata de una matriz reconfigurable de grano grueso, un poco similar a la computación espacial (computación espacial), cuando el programa compilado en un núcleo multiprocesador, todavía tiene que partición del programa, que es el problema del chip multi-core, y abierto El lenguaje de computación (OpenCL) no proporciona una solución.Wave tiene su propio compilador de espacio puede programar, especificar la ruta, el software se refleja en su arquitectura de procesador de interconexión estrechamente acoplado, esto será más rápido que el uso de temporales Más rápido.

Si bien estas nuevas arquitecturas son muy convincentes, el ecosistema de software de la GPU ha sido bien investigado en el aprendizaje de máquinas, si los centros de datos ultra grandes están dispuestos a tolerar el riesgo, importar un modelo de formación completamente diferente o decidir por sí mismos.