In computer vision, come Rogerio Feris, manager di computer vision e ricerca multimediale presso IBM Research, la sfida più grande è come "rendere l'analisi visiva più efficiente". In particolare, l'intelligenza artificiale è ancora nelle prime fasi di sviluppo e necessita di nuove Idee, visione a lungo termine e maggiori investimenti in ricerca e sviluppo da parte di accademici e istituti di ricerca.
La IBM Research pubblica due documenti sul software e la tecnologia hardware dell'IA alla conferenza 2018 di questa settimana sulla Computer Vision and Pattern Recognition (CVPR) tenutasi questa settimana a Salt Lake City. CVPR è sponsorizzato dalla Computer Vision Foundation e dalla IEEE Computer Society ed è considerato uno dei seminari sulla tecnologia di visione artificiale più competitivi.
Nella sezione hardware dell'IA, IBM Research sta promuovendo un sistema di visione stereoscopica che applica la tecnologia di rete neurale a spillo ispirata al cervello all'acquisizione di dati (sensori). Sviluppato da Data Processing, il design sfrutta il chip TureNorth di IBM - un processore di architettura non-von-Neumann - e uno sviluppo guidato dagli eventi iniLabs dell'industria svizzera. ) Fotocamera
Architettura TrueNorth di IBM (Fonte: IBM)
Nella sezione del software AI, la ricerca di IBM tratta di "Blockdrop", una fase chiave che viene considerata per ridurre la quantità totale di calcolo richiesta per reti profonde residue.Feris ha spiegato che i due documenti di cui sopra provengono da Risolvi lo stesso problema da due diversi punti di vista: l'efficienza dell'analisi visiva.
Feris ha detto che quando qualcuno vuole attraversare la strada, ci si aspetta che un veicolo che guida da solo "un'inferenza immediata", sebbene l'accuratezza del riconoscimento dell'immagine sia molto importante, ma quanto tempo ci vuole per guidare una macchina per trarre conclusioni e identificare quello che è, è La sua prova definitiva in applicazioni del mondo reale.
Che cos'è "Blockdrop"?
La rete residua che è diventata la vincitrice di ImageNet 2015, ha scatenato una tempesta nella comunità della tecnologia di visione artificiale: questa tecnologia ha dimostrato di poter fornire risultati di riconoscimento eccellenti perché può allenare centinaia o addirittura centinaia di reti neurali. Migliaia di livelli, tuttavia, sottolinea Feris: "Applicare l'operazione di misura unica richiesta dalla rete residua a tutte le immagini è troppo inefficiente;" ha spiegato che se c'è un cane davanti a uno sfondo bianco, si troverà in una scena urbana trafficata. Più facile da identificare.
Per questo motivo, IBM Research ha sviluppato BlockDrop, che è un metodo per apprendere quali blocchi (compresi più livelli) nella rete residua per eseguire dinamicamente attività di inferenza, Feris ha sottolineato: "L'obiettivo di questo metodo è ridurre correttamente l'elaborazione complessiva Senza perdita di precisione delle previsioni.
Istruzioni BlockDrop (Fonte: IBM)
IBM afferma che BlockDrop può aumentare la velocità di riconoscimento di una media del 20% durante i test, a volte addirittura fino al 36%, senza sacrificare l'accuratezza della rete residua raggiunta nel set di dati ImagNet. In estate con l'Università del Texas e l'Università del Maryland, la società rilascerà BlockDrop alla comunità open source.
Tecniche neuromorfe per applicazioni di visione stereo
In termini di hardware, IBM Research volta a l'uso di un sistema di visione stereo picco rete neurale, rappresenta la società, l'industria è ormai convenzionale per utilizzare due (blocco dati) per generare una macchina fotografica stereoscopica, ma non è mai stata tentata tecnologia neuromorfo. Mentre telecamere tradizionali forniscono un'immagine stereoscopica non è impossibile, ma richiederebbe una alta definizione elaborazione del segnale video, come immagini ad alta gamma dinamica (HDR), processo di calibrazione automatica ad alta risoluzione e simili.
I ricercatori IBM dopo Alessandro Andreopoulos descritte nel documento, che è un sistema sviluppato mediante l'uso di due eventi guide iniLabs telecamera (chiamati anche dinamica -DVSe sensore di visione), colpi di circuito integrato di IBM La TrueNorth gruppo di oggetti in rapido movimento estratti profondità.
L'obiettivo di IBM è quello di ridurre significativamente il consumo energetico e la latenza richiesti per ottenere immagini stereoscopiche.Dopo aver ricevuto un input live spike (che ha drasticamente ridotto la quantità di dati), il sistema utilizza l'hardware neuromorfico di IBM per ricostruire le immagini 3D. Stimare la differenza tra le immagini di due DVSe e individuare gli oggetti nello spazio 3D mediante triangolazione.
Immagini stereo neuromorfiche (fonte: IBM)
Recupero ed elaborazione dei dati
Una start-up francese, Prophesee, utilizza la neuromorfologia per acquisire dati e ridurre la quantità di dati raccolti dai sensori.La tecnologia dei sensori dell'azienda non è basata sui frame, ma semplifica e crea dati adatti all'uso della macchina. Obiettivi di progettazione In una precedente intervista con EE Times, Prophesee ha affermato che ciò può ridurre drasticamente il carico di dati e consentire all'automobile di prendere decisioni quasi istantanee.
Tuttavia, la nuova generazione del sistema di visione stereoscopica IBM non solo utilizza la tecnologia del cervello umano per il recupero dei dati, ma anche per il processamento dei dati per ricostruire le immagini stereoscopiche, Andreopoulos ha dichiarato che il sistema ha uno dei maggiori risultati, ovvero l'abilitazione di TrueNorth attraverso la programmazione. Implementare in modo efficace varie "sotto-routine" necessarie per "girare la visione stereo della rete neurale". IBM ha aggiunto che l'architettura del chip TrueNorth consuma meno energia rispetto ai sistemi tradizionali, il che sarebbe vantaggioso per i sistemi di guida automatizzati. design.
Analogamente, l'utilizzo di una coppia di videocamere DVS (non incorniciate) può anche ridurre la quantità di dati e consumo energetico, aumentare la velocità, ridurre la latenza, fornire una gamma dinamica migliore e IBM ha affermato che questi sono elementi chiave della progettazione immediata del sistema. Quando gli è stato chiesto quali sono i vantaggi del nuovo sistema TrueNorth, Andreopoulos ha dichiarato di disporre di una mappa di disparità per pixel pari a duecento volte superiore rispetto ai sistemi più avanzati che utilizzano processori o FPGA tradizionali CPU / GPU. miglioramento.
Utilizzando l'input basato sugli eventi, i dati di immagine in tempo reale inseriti nel sistema IBM vengono elaborati con 9 chip TrueNorth, che possono calcolare 400 mappe di disparità al secondo con un ritardo di soli 11 millisecondi (ms). IBM ha sottolineato nel documento che il prestito Con specifici trade-off, il sistema può aumentare ulteriormente la velocità fino a 2.000 mappe di disparità al secondo.
Quando i sistemi di visione stereoscopici con chip TrueNorth saranno commercializzati, Andreopoulos ha dichiarato: "Non possiamo ancora rivelare i punti temporali, possiamo solo dire che abbiamo testato e programmato con successo il chip per gestire in modo efficace le mappe di disparità.
Compilazione: Judith Cheng