準確還不夠 | AI機器視覺拚 | '效率'

儘管有眾多人工智慧處理器競相搶市──每一種都自稱是 '突破' ──今日的AI社群仍被無數問題所困擾, 包括能量, 速度, AI硬體的尺寸與AI演演算法, 這些都尚未證實在強韌度以及性能方面有所改善.

在電腦視覺方面, 如IBM Research的電腦視覺與多媒體研究經理Rogerio Feris所言, 最大的挑戰在於如何 '讓視覺分析更有效率' . 要特別說明的是, AI仍在早期發展階段, 需要全新的想法, 長期性的眼光, 以及學界與研究機構在研發上的更多投入.

IBM Research會在本周於鹽湖城(Salt Lake City)舉行的2018年度電腦視覺與圖形識別研討會(Conference on Computer Vision and Pattern Recognition, CVPR)上, 發表兩篇關於AI軟體與硬體技術的論文; CVPR是由電腦視覺基金會(Computer Vision Foundation)以及IEEE電腦學會贊助, 號稱是最具競爭力的電腦視覺技術研討會之一.

在AI硬體部分, IBM Research正在推廣一種立體視覺(stereo-vision)系統, 是透過將以大腦啟發的棘波神經網路(spiking neural-network)技術應用於數據擷取(感測器)與數據處理所開發; 該設計利用了IBM自家的TureNorth晶片──是一種非馮諾伊曼(non-von-Neumann)架構處理器──以及一對瑞士業者iniLabs開發的事件導向(event-driven)攝影機

IBM的TrueNorth架構 (來源: IBM)

在AI軟體部分, IBM Research的論文是關於 'Blockdrop' , 也就是被認為可降低深度殘差網路(deep residual networks)所需之總運算量的關鍵步驟. Feris解釋, 以上兩篇論文是從兩個不同角度解決一個相同的問題──視覺分析效率.

Feris表示, 當有人要過馬路, 自動駕駛車輛會被預期要做出 '即時推論' ; 雖然影像辨識準確度很重要, 不過自駕車要花多少時間產生結論, 識別出那是什麼東西, 才是它在現實世界應用的終極試驗.

什麼是 'Blockdrop' ?

在2015年ImageNet大會上成為贏家的殘差網路, 在電腦視覺技術社群掀起了一場風暴; 該技術已經證明了它能提供優異的識別結果, 因為能訓練神經網路中的數百甚至數千層. 不過Feris指出: '將殘差網路需要的那些一體適用運算應用於所有成像, 會太沒有效率; ' 他解釋, 如果有一隻狗在白色背景前, 會比在忙碌都市街景中更容易被識別.

為此IBM Research開發了BlockDrop, 這是一種學習動態選擇殘差網路中哪些區塊(包括多個層)來執行推論任務的方法; Feris指出: '該方法的目標是妥善減少整體運算輛, 同時不損失預測準確度. '

BlockDrop說明 (來源: IBM)

IBM聲稱, BlockDrop在測試中平均能將識別速度提升20%, 有時甚至能加快36%, 而且不犧牲殘差網路在ImagNet數據集中達到的準確度. Feris表示, IBM這項研究是在2017年夏天與美國德州大學(University of Texas), 馬里蘭大學(University of Maryland)合作展開, 該公司將會把BlockDrop釋出給開放源碼社群.

立體視覺應用的神經形態技術

在硬體方面, IBM Research瞄準了一種利用棘波神經網路的立體視覺系統; 該公司表示, 目前產業界是使用兩個傳統(訊框)攝影機來產生立體視覺, 但從未有人嘗試過神經形態技術. 雖然以傳統攝影機提供立體影像並非不可能, 不過會需要高畫質影像訊號處理, 例如高動態範圍(HDR)成像, 超高解析度處理以及自動校準等.

根據IBM研究員Alexander Andreopoulos在論文中的描述, 其系統是利用兩個iniLabs開發的事件導向攝影機(又被稱為動態視覺感測器-DVSe), 擷取畫面之後以IBM TrueNorth晶片叢集來提取快速移動物體之深度.

IBM的目標是大幅降低取得立體影像所需的功耗與延遲, 在接收直播的棘波輸入(這已經大幅降低數據量)後, 該系統是用IBM的神經形態硬體重建3D影像, 透過估算來自兩個DVSe之影像的差異, 以及藉由三角測量定位3D空間中的物體.

神經形態立體影像 (來源: IBM)

數據擷取與處理

有一家法國新創公司Prophesee是利用神經形態技術來擷取數據, 並降低感測器所收集的數據量; 該公司的感測器技術並非以訊框為基礎, 而是以簡化並打造適合機器使用的數據為設計目標. Prophesee執行長先前接受EE Times採訪時表示, 這能大幅減輕數據量負擔, 應該也能因此讓車子能做出幾乎即時性的決策.

不過新一代的IBM立體視覺系統不只將類人腦技術用於數據擷取, 也用在數據處理上, 以重建立體影像; Andreopoulos表示, 該系統還有一個最大的成就, 是透過編程讓TrueNorth有效率地執行 '棘波神經網路立體視覺必備的各種常見子程序(sub-routines)' . IBM補充指出, TrueNorth晶片的架構功耗比傳統系統低, 這會有利於自動駕駛系統的設計.

同樣的, 利用一對DVS攝影機(非訊框式)也能降低數據量與功耗, 並提升速度, 減少延遲, 提供更好的動態範圍, 而IBM表示這些都是即時系統設計的關鍵元素. 在被問到新的TrueNorth系統還有那些優勢時, Andreopoulos表示, 與採用傳統CPU/GPU處理器或FPGA的最先進系統相較, 其每畫素視差圖功率(power per pixel disparity map)有兩百倍的改善.

利用以事件為基礎的輸入, 饋入IBM系統的即時影像數據, 是以9顆TrueNorth晶片進行處理, 每秒能計算400張視差圖, 延遲僅11毫秒(ms). IBM在論文中指出, 藉由特定的權衡(trade-offs), 該系統能將速率進一步提升到每秒2,000張視差圖.

採用TrueNorth晶片的立體視覺系統何時可以商業化? Andreopoulos表示: '我們還不能透露時間點, 只能說我們已經進行測試並且成功編程晶片有效處理視差圖, 現階段是概念驗證. '

編譯: Judith Cheng

2016 GoodChinaBrand | ICP: 12011751 | China Exports