En la visión por computadora, como Rogerio Feris, gerente de visión por computadora e investigación multimedia en IBM Research, el mayor desafío es cómo 'hacer que el análisis visual sea más eficiente'. En particular, AI todavía está en sus primeras etapas de desarrollo y necesita nuevas Ideas, visión a largo plazo y más inversión en investigación y desarrollo por parte de académicos e instituciones de investigación.
IBM Research publica dos artículos sobre software de IA y tecnología de hardware en la Conferencia 2018 de Visión por Computadora y Reconocimiento de Patrones (CVPR) de esta semana esta semana. CVPR es patrocinado por la Computer Vision Foundation y la IEEE Computer Society y es considerado como uno de los seminarios de tecnología de visión por computadora más competitivos.
En la sección de hardware de AI, IBM Research está promoviendo un sistema de visión estereoscópica que aplica la tecnología de redes neuronales de punta inspirada en el cerebro a la adquisición de datos (sensores). Desarrollado por Data Processing; El diseño aprovecha el propio chip TureNorth de IBM, un procesador de arquitectura no von-Neumann, y un desarrollo impulsado por eventos de la industria suiza iniLabs. Cámara
Arquitectura TrueNorth de IBM (Fuente: IBM)
En la sección de software de AI, el artículo de IBM Research trata sobre "Blockdrop", un paso clave que se considera que reduce la cantidad total de computación requerida para las redes residuales profundas. Feris explicó que los dos documentos anteriores son de Resuelva el mismo problema desde dos perspectivas diferentes: la eficiencia del análisis visual.
Feris dijo que cuando alguien quiere cruzar la calle, se espera que un vehículo autónomo realice una "inferencia instantánea", aunque la precisión del reconocimiento de imágenes es muy importante, pero cuánto tiempo lleva conducir un automóvil para sacar conclusiones e identificar lo que es. Su prueba definitiva en aplicaciones del mundo real.
¿Qué es 'Blockdrop'?
La red residual que se convirtió en ganadora en ImageNet 2015 provocó una tormenta en la comunidad de tecnología de visión por computadora, esta tecnología ha demostrado que puede proporcionar excelentes resultados de reconocimiento porque puede entrenar cientos o incluso cientos de redes neuronales. Miles de capas. Sin embargo, Feris señala: 'Aplicar la operación única requerida por la red residual a todas las imágenes es demasiado ineficiente', explicó que si hay un perro frente a un fondo blanco, estará en una escena urbana ocupada. Más fácil de identificar.
Por esta razón, IBM Research desarrolló BlockDrop, que es un método para aprender qué bloques (incluidas múltiples capas) en la red residual para realizar dinámicamente tareas de inferencia; Feris señaló: "El objetivo de este método es reducir adecuadamente la informática en general Sin pérdida de precisión del pronóstico.
Instrucciones BlockDrop (Fuente: IBM)
IBM afirma que BlockDrop puede aumentar la velocidad de reconocimiento en un promedio de 20% durante las pruebas, a veces hasta 36%, sin sacrificar la precisión de la red residual lograda en el conjunto de datos ImagNet. Feris dijo que el estudio de IBM fue en 2017. En el verano con la Universidad de Texas y la Universidad de Maryland, la compañía lanzará BlockDrop a la comunidad de código abierto.
Técnicas neuromórficas para aplicaciones de visión estereoscópica
En términos de hardware, IBM Research está apuntando a un sistema de visión estereoscópica que utiliza redes neuronales con pinchos, la compañía afirmó que en la actualidad, la industria está utilizando dos cámaras tradicionales (marco) para generar visión estereoscópica, pero nadie lo ha intentado todavía. Tecnología neuromórfica: aunque no es imposible proporcionar imágenes estereoscópicas con cámaras convencionales, se requiere un procesamiento de señal de video de alta definición, como imágenes de alto rango dinámico (HDR), procesamiento de resolución ultra alta y calibración automática.
Según el investigador de IBM Alexander Andreopoulos descrito en el documento, el sistema es el uso de dos iniLabs desarrolló la cámara orientada a eventos (también conocido como sensor de visión dinámico - DVSe), después de capturar la imagen con IBM TrueNorth chip cluster para extraer objetos de movimiento rápido Profundidad
El objetivo de IBM es reducir significativamente el consumo de energía para obtener una imagen estereoscópica con el retardo deseado, después de recibir el trinquete de entrada de onda de emisión (esto ha reducido en gran medida la cantidad de datos), el sistema es una imagen 3D reconstruido utilizando hardware neuromórfica IBM, a través Estime la diferencia entre las imágenes de dos DVSe y ubique los objetos en el espacio 3D por triangulación.
Imágenes estéreo neuromórficas (Fuente: IBM)
Recuperación y procesamiento de datos
Una empresa francesa de lanzamiento, Prophesee, utiliza la neuromorfología para capturar datos y reducir la cantidad de datos recopilados por los sensores. La tecnología de sensores de la empresa no se basa en marcos, sino que simplifica y crea datos adecuados para el uso de la máquina. Objetivos de diseño. En una entrevista anterior con EE Times, Prophesee dijo que esto puede reducir drásticamente la carga de datos y permitirle al automóvil tomar decisiones casi instantáneas.
Pero una nueva generación de sistema de visión estéreo IBM sería no sólo como el cerebro humano la tecnología de captura de datos, también se utiliza en el procesamiento de datos para reconstruir imágenes tridimensionales; Andreopoulos dicho uno de los mayores logros del sistema se programa para que a través TrueNorth el rendimiento eficiente de 'picos red neural visión estereoscópica variedad necesaria de subrutinas comunes (subrutinas)'. IBM añadió que, TrueNorth arquitectura de chip de baja potencia que el sistema tradicional, lo que facilitará el sistema de piloto automático Diseño.
Del mismo modo, el uso de un par de cámaras DVS (sin marco) también puede reducir la cantidad de datos y el consumo de energía, aumentar la velocidad, reducir la latencia y proporcionar un mejor rango dinámico, e IBM dijo que estos son elementos clave del diseño instantáneo del sistema. Cuando se le preguntó acerca de las ventajas del nuevo sistema TrueNorth, Andreopoulos dijo que tiene doscientas veces más poder por mapa de disparidad de píxeles que los sistemas más avanzados que utilizan procesadores CPU / GPU tradicionales o FPGA. Mejoras
Utilizando la entrada basada en eventos, los datos de imagen en tiempo real alimentados al sistema IBM se procesan con 9 chips TrueNorth, que pueden calcular 400 mapas de disparidad por segundo con un retraso de solo 11 milisegundos (ms). IBM señaló en el documento que el préstamo Mediante compensaciones específicas, el sistema puede aumentar aún más la tasa a 2.000 mapas de disparidad por segundo.
¿Cuándo se pueden comercializar los sistemas de visión estereoscópica con chips TrueNorth? Andreopoulos dijo: "Todavía no podemos revelar los puntos de tiempo. Solo podemos decir que hemos probado y programado con éxito el chip para manejar de manera efectiva los mapas de disparidad. Esta etapa es una prueba de concepto".
Compilación: Judith Cheng