
IBM Research und die EPFL starten auf der NIPS Conference 2017 mit der Big Data Machine Learning Solution, einer Methode, mit der 30 GB Trainingsdaten in weniger als 10 Minuten verarbeitet werden können, bis zu 10-mal mehr Trainingseinheiten mit begrenztem Speicher.
Das Team sagte, dass das Challenge-Machine-Training im Big-Data-Zeitalter ein allgemeines, aber kniffliges Problem ist, um das Training auf jedem TB-Level zu starten: Vielleicht kann ein Server mit genügend Speicherkapazität alle Trainingsdaten laden Speicher, aber es kann Stunden oder sogar Wochen dauern.
Sie glauben, dass die aktuelle spezielle Computerhardware, wie GPUs, das Rechnen wirklich beschleunigen kann, aber sie ist auf rechenintensive Aufgaben statt auf datenintensive Aufgaben beschränkt. Wenn Sie die Vorteile von GPU-intensiven Berechnungen nutzen möchten, müssen Sie Daten vorab laden Um GPU-Speicher und die aktuelle maximale Kapazität von GPU-Speicher ist nur 16 GB, die nicht ausreichend für maschinelles Lernen ist.
Batch-Betrieb scheint eine machbare Methode, die Trainingsdaten in Stücke aufgeteilt, und in Übereinstimmung mit der Reihenfolge, um die GPU laden, um das Modell Training zu tun, aber das Experiment festgestellt, dass die Datenübertragung von der CPU in die GPU-Übertragungskosten vollständig abgedeckt Die größte Herausforderung beim maschinellen Lernen auf der GPU ist die Unmöglichkeit, alle Daten in den Speicher zu werfen, sagt IBM-Forscherin Celestine Dünner.
Um dieses Problem zu lösen, entwickelte das Forscherteam Techniken, um die Bedeutung von Trainingsdatensätzen zu markieren. Daher werden bei der Schulung nur die wichtigsten Daten verwendet, sodass die meisten unnötigen Daten nicht an die GPU gesendet werden müssen, wodurch viel Trainingszeit eingespart wird. Um ein Modell zur Unterscheidung zwischen Bildern von Hunden und Katzen zu trainieren, sobald das Modell feststellt, dass der Unterschied zwischen einer Katze und einem Hund darin besteht, dass das Ohr der Katze kleiner als der Hund sein muss, behält das System dieses Merkmal und wird dieses Merkmal in zukünftigen Trainingsmodellen nicht wiederholen, Laut IBM-Forscher Thomas Parnell werden Modelle dadurch immer schneller trainiert, was ein häufigeres Training der Modelle und eine schnellere Abstimmung der Modelle ermöglicht.
Diese Technik wird verwendet, wie viel Lernalgorithmus, die hauptsächliche Verwendung des Begriffs der räumlichen Unterschiede des Einflusses, den Beitrag jeden Datenpunkt zu messen und zu der Zeit, die Trainingsalgorithmen anzupassen. Die praktische Anwendung dieser Methode, das Team auf heterogene Plattformen (Heterogeneous Computing-Plattformen) in , maschinelles Lernen Trainingsmodell entwickelt Komponenten Duhl ein neues wiederverwendbar, für Raum Unterschiede heterogener Lernen entwickelt.
IBM sagte, dass ihr nächstes Ziel ist Duhl in der Cloud zur Verfügung zu stellen, da die aktuelle Einheit GPU Cloud-Service-Abrechnung Stunden, wenn die Zeit zum Trainieren des Modells wird von 10 Stunden auf eine Stunde reduziert worden ist, und dass die Kosteneinsparungen sehr alarmierend sein.

(Oben) Das Diagramm zeigt die Zeit, die für die drei Algorithmen erforderlich ist, einschließlich der Leistung von DuHL auf einer massiven SVM, unter Verwendung einer 30 GB ImageNet-Datenbank mit Hardware als 8 GB NVIDIA Quadro M4000 GPU, Die Abbildung zeigt die Effizienz von Chargen von GPU-Sequenzen, die sogar schlechter sind als bei reinen CPU-Methoden, während DuHL mehr als 10-mal schneller ist als die beiden anderen Methoden.