IBM Research와 EPFL, 2017 년 NIPS 컨퍼런스에서 빅 데이터 머신 러닝 솔루션 출시 GPU를 활용하여 제한된 메모리 교육의 10 배에 달하는 10 분 이내에 30GB의 교육 데이터를 처리하는 방법.
팀은 큰 데이터 시대에 직면하게되는 챌린지 기자 교육은 TB 수준에서 교육을 시작하는 것이 일반적이지만 까다로운 문제라고 말하면서 충분한 메모리 용량을 갖춘 서버가 모든 교육 데이터를로드 할 수 있습니다 기억하지만 시간이 걸리거나 몇 주가 걸릴 수도 있습니다.
그들은 GPU와 같은 현재의 특수 컴퓨팅 하드웨어가 실제로 컴퓨팅 속도를 향상시킬 수 있다고 믿지만 데이터 집약적 인 작업보다는 계산 집약적 인 작업에만 국한되어 GPU 집약적 인 컴퓨팅의 장점을 활용하려면 데이터를 미리로드해야합니다 GPU 메모리 및 GPU 메모리의 현재 최대 용량은 16GB로 기계 학습을위한 충분한 공간이 아닙니다.
일괄 작업이 가능한 방법 인 것 같습니다, 훈련 데이터는 조각으로 나뉘어져 있으며, 순서에 따라 모델 훈련을 수행하기 위해 GPU를로드하지만 실험을 통해 GPU 전송 비용으로 CPU에서 데이터 전송이 완전히 커버되는 것으로 나타났습니다 IBM 연구원 인 Celestine Dünner는 고속 GPU 컴퓨팅에 데이터를 넣을 때 얻을 수있는 장점은 GPU에서 기계 학습을 할 때 가장 큰 문제는 모든 데이터를 메모리에 던지지 못하는 것입니다.
이 문제를 해결하기 위해, 기술 교육 데이터 세트를 위해 개발 된 연구 팀은 사용 훈련 따라서 만 중요한 데이터의 중요성을 표시하고 대부분의 불필요한 데이터를함으로써 시간 훈련을 절약 GPU를 보낼 필요가 없습니다. 마찬가지로를 모델이 고양이 귀 개 차이 고양이 중 하나가 개보다 확실히 작은 것을 발견하면 개와 고양이 그림의 교육 모델을 구별하기 위해, 시스템이 기능을 유지합니다, 미래의 교육 모델은이 기능의 검토를 반복하지 않습니다, 따라서 교육 모델은 빠를 것이다. IBM 연구원 토마스 파넬은 기능이 더 자주 훈련 모델뿐만 아니라, 적시에 조정 모델을 용이하게했다.
이 기법은 주로 각 데이터 포인트가 학습 알고리즘에 기여하는 정도를 측정하는데 사용되며, 주로 이진 불균형의 개념을 사용하고 시간적으로 트레이닝 알고리즘을 조정합니다.이 방법의 실제 적용을 통해 연구팀은 이기종 컴퓨팅 플랫폼 이진 불균형의 이기종 학습을 위해 설계된 기계 학습 교육 모델을위한 새롭고 재사용 가능한 구성 요소 인 DuHL을 개발했습니다.
IBM의 다음 목표는 클라우드에 DuHL을 제공하는 것이라고 클라우드 GPU 서비스의 현재 단위는 시간을 기준으로하며 모델 훈련 시간이 10 시간에서 1 시간으로 단축되면 비용 절감은 엄청날 것입니다.
(위)이 그래프는 하드웨어가 8GB NVIDIA Quadro M4000 GPU 인 30GB ImageNet 데이터베이스를 사용하여 대규모 SVM에서 DuHL의 성능을 비롯하여 3 가지 알고리즘에 필요한 시간을 보여줍니다. 이 그림은 GPU 시퀀스의 배치 효율성을 CPU 전용 방법보다 훨씬 나쁜 반면 DuHL은 다른 두 가지 방법보다 10 배 이상 빠릅니다.