IBM Research의 컴퓨터 비전 및 멀티미디어 연구 책임자 인 Rogerio Feris와 같은 컴퓨터 비전에서 가장 큰 과제는 시각적 분석을보다 효율적으로 만드는 방법입니다. 특히 AI는 아직 개발 초기 단계에 있으며 새로운 요구 사항이 있습니다 학계 및 연구 기관의 아이디어, 장기 비전 및 연구 개발에 대한 투자
IBM Research는 이번 주 Salt Lake City에서 개최 된 이번 주 2018 회의 컴퓨터 비전 및 패턴 인식 (CVPR) 회의에서 인공 지능 소프트웨어 및 하드웨어 기술에 대한 두 개의 논문을 발표했습니다. CVPR은 Computer Vision Foundation과 IEEE Computer Society가 후원하며 가장 경쟁력있는 컴퓨터 비전 기술 세미나 중 하나로 손 꼽히고 있습니다.
AI 하드웨어 섹션에서 IBM Research는 두뇌에 영감을주는 스파이크 신경 네트워크 기술을 데이터 수집 (센서)에 적용하는 입체 시각 시스템을 홍보하고 있습니다. 데이터 처리 기술로 개발 된이 디자인은 IBM의 자체 TureNorth 칩 (비 - 폰 - 노이만 아키텍처 프로세서)과 스위스 업계의 iniLabs에 의한 이벤트 중심 개발을 활용합니다. ) 카메라
IBM의 TrueNorth 아키텍처 (출처 : IBM)
AI 소프트웨어 섹션에서 IBM Research의 논문은 심층 잔여 네트워크에 필요한 총 계산량을 줄이기 위해 고려 된 핵심 단계 인 'Blockdrop'에 대한 것입니다. Feris는 위의 두 논문은 시각적 분석 효율성이라는 두 가지 다른 관점에서 동일한 문제를 해결하십시오.
Feris는 누군가가 길을 건너기를 원할 때 자기 운전 차량이 '즉각적인 추측'을 할 것으로 예상되지만 이미지 인식의 정확성은 매우 중요하지만 결론을 도출하고 식별 할 수있는 시간은 얼마나되는지 실제 응용 프로그램의 궁극적 인 테스트.
'Blockdrop'이란 무엇입니까?
ImageNet 2015에서 승자가 된 잔여 네트워크는 컴퓨터 비전 기술 공동체에서 폭풍을 일으켰으며,이 기술은 수 백 또는 수백 개의 신경 네트워크를 훈련 할 수 있기 때문에 탁월한 인식 결과를 제공 할 수 있음을 증명했습니다. 그러나 Feris는 "잔여 네트워크에서 요구되는 모든 기능을 모든 이미징에 적용하는 것은 너무 비효율적이며, 개가 흰색 배경 앞에 있으면 바쁜 도시의 거리 장면에있을 것"이라고 설명했습니다. 쉽게 식별 할 수 있습니다.
이러한 이유로 IBM Research는 잔여 네트워크의 블록 (다중 계층 포함)을 동적으로 추론하는 방법 인 BlockDrop을 개발했으며 Feris는 다음과 같이 지적했습니다. '이 방법의 목표는 전체 컴퓨팅을 적절히 줄이는 것입니다 예측 정확도의 손실없이.
BlockDrop 명령어 (출처 : IBM)
IBM의 주장은 시험에 BlockDrop 잔여 데이터를 달성 정확성을 설정 ImagNet에 네트워크를 희생하지 않고, 36 %의 속도를 높일 수 있습니다 때로는 빠른 평균 20 %를 식별 할 수 있습니다. Feris 말했다 IBM이 연구는 2017 년이었다 텍사스 대학 (University of Texas)과 메릴랜드 대학 (University of Maryland)에서 여름에 BlockDrop을 오픈 소스 커뮤니티에 공개 할 예정입니다.
스테레오 비전 애플리케이션을위한 뉴로 morphic 기술
하드웨어 측면에서, IBM 연구 신경망 스파이크 스테레오 비전 시스템의 사용을 목표로, 회사를 대표하는 산업은 입체 카메라를 생성하기 위해 두 (정보 차단)을 사용하는 것이 이제 기존이지만, 시도 된 적이없는 Neuromorphic 기술입니다. 기존 카메라를 사용하여 입체 영상을 제공하는 것은 불가능하지 않지만 HDR (High Dynamic Range) 이미징, 초 고해상도 처리 및 자동 보정과 같은 고화질 비디오 신호 처리가 필요합니다.
알렉산더 Andreopoulos 후 IBM 연구팀은 두 이벤트의 사용에 의해 개발 된 시스템은 추출 빠르게 움직이는 물체의 IBM TrueNorth 클러스터 iniLabs 카메라 (동적 비전 센서 -DVSe 함) 칩 샷 가이드는 용지에 기재 깊이.
IBM의 목표는 입체 영상을 얻는 데 필요한 전력 소비와 대기 시간을 크게 줄이는 것인데, 라이브 스파이크 입력 (데이터 양이 급격히 감소한)을받은 후 시스템은 IBM의 신경모학 하드웨어를 사용하여 3D 이미지를 재구성합니다. 두 DVSe의 이미지 차이를 추정하고 삼각 측량을 통해 3D 공간에서 객체를 찾습니다.
뉴로 피어 스테레오 이미지 (출처 : IBM)
데이터 검색 및 처리
프랑스의 신생 기업인 Prophesee는 데이터를 수집하고 센서가 수집하는 데이터 양을 줄이기 위해 신경근 촬영법을 사용합니다. 회사의 센서 기술은 프레임을 기반으로하지는 않지만 기계 사용에 적합한 데이터를 단순화하고 생성합니다. 디자인 목표 : EE Times와의 초기 인터뷰에서 Prophesee는 이것이 데이터 부담을 대폭 줄여 줄 수 있고 자동차가 거의 즉각적인 결정을 내릴 수 있어야한다고 말했다.
그러나 IBM 스테레오 비전 시스템의 새로운 세대는 또한 3 차원 영상을 재구성하는 데이터 처리에 사용되는 데이터 캡처에 대한 인간의 두뇌 기술 같은 것뿐만 아니라, Andreopoulos은 시스템의 가장 큰 업적 중 하나가 TrueNorth을 통해 수 있도록 프로그램되어했다 의 효율적인 성능은 IBM 첨가. '공통 서브 루틴 (서브 루틴)의 신경망 입체 비전 필요한 다양한 스파이크'이 자동 조종 시스템을 용이하게 기존의 시스템보다 TrueNorth 저전력 칩 아키텍처 디자인.
마찬가지로, 한 쌍의 DVS 카메라 (프레임이없는)를 사용하면 데이터 및 전력 소비량을 줄이고 속도를 높이고 대기 시간을 줄이며 더 나은 동적 범위를 제공 할 수 있으며 IBM은 인스턴트 시스템 설계의 핵심 요소라고 전합니다. Andreopoulos는 새로운 TrueNorth 시스템의 장점에 대해 물었더니 기존의 CPU / GPU 프로세서 또는 FPGA를 사용하는 최첨단 시스템보다 픽셀 불일치지도 당 200 배 더 많은 전력을 사용한다고 말했습니다. 개선.
이벤트 기반 입력을 사용하여 IBM 시스템에 공급되는 실시간 이미지 데이터는 9 개의 TrueNorth 칩으로 처리되어 11 초의 지연으로 초당 400 개의 디스 패리티 맵을 계산할 수 있습니다 .IBM은 차용 특정 절충안에 따라이 시스템은 초당 2,000 개의 불일치지도로 비율을 더 높일 수 있습니다.
?이 Andreopoulos 말했다 상용화 할 수있는 스테레오 비전 시스템 사용 TrueNorth 칩 : '우리는 시점을 공개 할 수 없습니다 만 우리가 테스트를 성공적으로 변이지도를 효과적으로 처리 할 수있는 칩을 프로그램 된 말할 수는 개념 단계의 증거입니다.'
편집 : Judith Cheng