IBM демонстрирует 10-кратное обучение машинам на GPU, обрабатывая данные обучения 30 ГБ всего за 1 минуту@goodchinabrand.com

Исследовательская группа отметила важность подготовки наборов данных, обучения только важным данным, и большая часть ненужных данных больше не требовалась для подачи на GPU, что экономит много времени при передаче данных.

IBM Research и EPFL запустили решение для обучения машинам больших данных на конференции NIPS 2017 года, метод, который использует GPU для обработки 30 ГБ учебных данных менее чем за 10 минут, что в 10 раз превышает количество существующих тренировок с ограниченной памятью.

Команда заявила, что сложная тренировка машины сталкивается с большим возрастом данных, так это то, что для любой тренировки на уровне туберкулеза это обычная, но сложная проблема. Возможно, сервер с достаточным объемом памяти может загружать все данные обучения Память, но это может занять несколько часов или даже недель.

Они считают, что текущее специальное вычислительное оборудование, такое как графические процессоры, может действительно ускорить вычисления, но оно ограничено вычислительно-интенсивными задачами, а не задачами, требующими интенсивного использования данных, и если вы хотите извлечь выгоду из преимуществ интенсивных вычислений с использованием графического процессора, вам необходимо предварительно загрузить данные Для памяти GPU, а максимальная емкость памяти GPU составляет всего 16 ГБ, что недостаточно для машинного обучения.

Пакетная операция, по-видимому, является приемлемым методом, данные обучения разделены на части и в соответствии с порядком загрузки графического процессора для обучения модели, но в эксперименте установлено, что передача данных из ЦП в стоимость передачи GPU полностью покрыта По словам исследователя из Celestine Dünner, преимущества ввода данных в высокоскоростные вычисления на GPU, самая большая проблема с машинным обучением на GPU - невозможность выбросить все данные в память.

Чтобы решить эту проблему, исследовательская группа разработала методики, чтобы отметить важность учебных наборов данных, поэтому обучение использует только самые важные данные, поэтому большинство ненужных данных не нужно отправлять на GPU, экономя время обучения. Чтобы обучить модель различать фотографии собак и кошек, как только модель обнаружит, что одно из различий между кошкой и собакой состоит в том, что ухо кошки должно быть меньше, чем собака, система сохранит эту функцию и не повторит эту функцию в будущих моделях обучения, В результате модели проходят обучение быстрее и быстрее, считает исследователь IBM Томас Парнелл, которая помогает более частому обучению моделей и более своевременной настройке моделей.

Этот метод используется для измерения того, насколько каждая точка данных способствует алгоритму обучения, в основном используя концепцию двоичного неравенства и корректируя алгоритм обучения во времени. С практическим применением этого метода исследовательская группа работает над гетерогенными вычислительными платформами , Разработан новый, повторно используемый компонент, DuHL, для модели обучения машинного обучения, разработанной для гетерогенного обучения двоичному неравенству.

IBM заявила, что их следующая цель - предоставить DuHL в облаке, поскольку текущее подразделение службы облачных графических процессоров основано на часах, а экономия средств будет ошеломляющей, если время обучения модели сократится с десяти часов до одного часа.

(Вверху) График показывает время, необходимое для трех алгоритмов, включая производительность DuHL на массивном SVM, с использованием базы данных ImageNet 30 ГБ с аппаратным обеспечением в качестве графического процессора NVIDIA Quadro M4000 на 8 ГБ, На рисунке показана эффективность партий последовательностей GPU, даже хуже, чем только процессоры, тогда как DuHL более чем в 10 раз быстрее, чем два других метода.