IBM muestra el aprendizaje automático de 10x GPU, procesando datos de entrenamiento de 30GB en solo 1 minuto@goodchinabrand.com

El equipo de investigación marcó la importancia de entrenar conjuntos de datos, entrenando sólo datos importantes, y la mayoría de los datos innecesarios ya no se necesitaban para alimentar la GPU, lo que ahorraba mucho tiempo en la transferencia de datos.

IBM Research y EPFL lanzan Big Data Machine Learning Solution en 2017 NIPS Conference, un método que aprovecha una GPU para procesar 30 GB de datos de entrenamiento en menos de 10 minutos, hasta 10 veces la cantidad de entrenamiento de memoria limitada existente.

El equipo dijo que los encuentros de entrenamiento de máquinas de desafío en la era de los grandes datos es que es un problema común pero complicado iniciar la capacitación en cualquier nivel de TB. Tal vez un servidor con suficiente capacidad de memoria puede cargar todos los datos de entrenamiento. Memoria, pero puede llevar horas o incluso semanas.

Creen que el hardware informático especial actual, como las GPU, puede acelerar realmente la informática, pero está limitado a tareas intensivas computacionalmente en lugar de intensivas en datos, y si desea capitalizar los beneficios de la computación intensiva de GPU, debe precargar datos. Para la memoria de la GPU, y la capacidad máxima actual de la memoria de la GPU es de solo 16 GB, que no es suficiente para el aprendizaje automático.

La operación por lotes parece ser un método factible, los datos de entrenamiento se dividen en partes y de acuerdo con el orden de cargar la GPU para hacer el entrenamiento modelo, pero el experimento encontró que la transferencia de datos de la CPU a los costos de transmisión de la GPU estaba completamente cubierta Los beneficios de poner datos en la computación de GPU de alta velocidad, investigador de IBM Celestine Dünner, dijo que el mayor desafío con el aprendizaje automático en la GPU es la incapacidad de arrojar todos los datos en la memoria.

Para resolver este problema, el equipo de investigación desarrolló técnicas para señalar la importancia de los conjuntos de datos de entrenamiento, por lo que la capacitación utiliza solo los datos más importantes, por lo que no es necesario enviar la mayoría de los datos innecesarios a la GPU, lo que ahorra mucho tiempo de entrenamiento. Para entrenar un modelo que distinga entre imágenes de perros y gatos, una vez que el modelo encuentre que una de las diferencias entre un gato y un perro es que la oreja del gato debe ser más pequeña que el perro, el sistema retendrá esta característica y no repetirá esta característica en futuros modelos de entrenamiento. Como resultado, los modelos se están entrenando cada vez más rápido, de acuerdo con el investigador de IBM Thomas Parnell, una característica que facilita el entrenamiento más frecuente de los modelos y el ajuste más oportuno de los modelos.

Esta técnica se utiliza para medir la contribución de cada punto de datos en el algoritmo de aprendizaje de la cantidad, el principal uso del concepto de diferencias espaciales de influencia y oportuno ajustar el algoritmo de entrenamiento. La aplicación práctica de este método, el equipo de investigación en plataformas heterogéneas (plataformas de computación heterogéneos) en , la máquina modelo de formación de aprendizaje componentes desarrollados Duhl un nuevo reutilizable, diseñado para las diferencias espaciales de aprendizaje heterogéneo.

IBM dijo que su próximo objetivo es proporcionar Duhl en la nube, ya que la unidad actual servicio de facturación GPU nube es horas, si el tiempo para entrenar el modelo se ha reducido de diez horas a una hora, y que los ahorros de costes será muy alarmante.

(Arriba) El gráfico muestra el tiempo requerido para los tres algoritmos, incluido el rendimiento de DuHL en una SVM masiva, utilizando una base de datos ImageNet de 30GB con hardware como una GPU NVIDIA Quadro M4000 de 8GB, La figura muestra la eficiencia de los lotes de secuencias GPU incluso peor que los métodos solo de CPU, mientras que DuHL es más de 10 veces más rápido que los otros dos métodos.