Accurate n'est pas suffisant | IA lutte contre la vision de la machine | 'Efficiency'

Bien qu'il existe de nombreux processeurs d'intelligence artificielle en compétition pour conquérir le marché - chacun prétendant être une "percée" - la communauté IA actuelle est toujours confrontée à d'innombrables problèmes, dont l'énergie, la vitesse, la taille du matériel IA et les algorithmes IA Aucun de ceux-ci ne s'est avéré être amélioré dans la ténacité et la performance.

En vision par ordinateur, comme Rogerio Feris, directeur de la vision par ordinateur et de la recherche multimédia chez IBM Research, le plus grand défi consiste à «rendre l'analyse visuelle plus efficace.» En particulier, l'IA en est encore aux premiers stades de développement. Des idées, une vision à long terme et davantage d'investissements dans la recherche et le développement par des universitaires et des instituts de recherche.

IBM Research publie deux articles sur les logiciels et la technologie matérielle de l'IA lors de la conférence de 2018 sur la vision par ordinateur et la reconnaissance des formes (CVPR) qui se tiendra cette semaine à Salt Lake City. CVPR est sponsorisé par la Computer Vision Foundation et l'IEEE Computer Society et est considéré comme l'un des séminaires de technologie de vision par ordinateur les plus compétitifs.

Dans la section sur le matériel AI, IBM Research fait la promotion d'un système de vision stéréoscopique qui applique la technologie de réseau neuronal de pointe inspirée du cerveau à l'acquisition de données (capteurs). Développé par Data Processing: la conception s'appuie sur la puce TureNorth d'IBM, un processeur d'architecture non-von-Neumann, et sur un développement piloté par des événements de l'industrie suisse iniLabs. ) Caméra

L'architecture TrueNorth d'IBM (Source: IBM)

Dans la section du logiciel AI, l'article d'IBM Research traite de «Blockdrop», une étape clé qui est considérée comme réduisant la quantité totale de calculs requis pour les réseaux résiduels profonds. Résoudre le même problème à partir de deux perspectives différentes - l'efficacité de l'analyse visuelle.

Feris a dit que quand quelqu'un veut traverser la route, un véhicule autonome devrait faire une «inférence instantanée», bien que la précision de la reconnaissance d'image soit très importante, mais combien de temps il faut pour conduire une voiture pour tirer des conclusions et identifier ce qui est. Son test ultime dans les applications du monde réel.

Qu'est-ce que 'Blockdrop'?

Le réseau résiduel qui a remporté le prix ImageNet 2015 a déclenché une tempête dans la communauté des technologies de vision par ordinateur, cette technologie ayant prouvé qu'elle pouvait fournir d'excellents résultats de reconnaissance car elle peut entraîner des centaines voire des centaines de réseaux de neurones. le nombre de Melaleuca mais Feris dit: «taille unique tous les opérateurs réseau de résidus doit appliquer à tous l'imagerie, serait trop inefficace, at-il expliqué, s'il y a un chien devant un fond blanc, d'une rue animée dans la ville Plus facile à identifier.

A cette fin IBM Research a développé BlockDrop, c'est un réseau d'apprentissage dans lequel la sélection dynamique des blocs résiduels (y compris plusieurs couches) pour effectuer des tâches méthodes d'inférence, Feris a déclaré: « L'objectif de la méthode est appropriée pour réduire les unités opérationnelles globales Sans perte de précision des prévisions.

Instructions BlockDrop (Source: IBM)

IBM affirme que BlockDrop peut augmenter la vitesse de reconnaissance de 20% en moyenne lors des tests, parfois même jusqu'à 36%, sans sacrifier la précision du réseau résiduel atteint dans l'ensemble de données ImagNet.Feris a déclaré que la recherche d'IBM était en 2017. En été, avec l'Université du Texas et l'Université du Maryland, la société sortira BlockDrop pour la communauté open source.

Techniques neuromorphiques pour les applications de vision stéréo

En ce qui concerne le matériel, IBM Research vise un système de vision stéréoscopique utilisant des réseaux de neurones dopés: l'entreprise utilise actuellement deux caméras (à cadre) traditionnelles pour générer une vision stéréoscopique, mais personne ne l'a encore essayé. Technologie neuromorphique Bien qu'il ne soit pas impossible de fournir des images stéréoscopiques à l'aide de caméras conventionnelles, un traitement de signal vidéo haute définition est requis, comme l'imagerie à plage dynamique élevée (HDR), le traitement à ultra-haute résolution et l'étalonnage automatique.

Selon le chercheur d'IBM Alexander Andreopoulos décrit dans le document, le système est l'utilisation de deux iniLabs développé caméra orientée événement (également connu sous le nom de capteur de vision dynamique - DVSe), après avoir capturé l'image avec IBM TrueNorth puce pour extraire les objets en mouvement rapide Profondeur

L'objectif d'IBM est de réduire significativement la consommation d'énergie et la latence nécessaires pour obtenir des images stéréoscopiques.Après avoir reçu une entrée en direct (qui a considérablement réduit la quantité de données), le système utilise le matériel neuromorphique d'IBM pour reconstruire des images 3D. Estimer la différence entre les images de deux DVSe et localiser les objets dans l'espace 3D par triangulation.

Images stéréo neuromorphes (Source: IBM)

Récupération et traitement des données

Une start-up française, Prophesee, utilise la neuromorphologie pour capturer des données et réduire la quantité de données collectées par les capteurs.La technologie de détection de la société ne repose pas sur des cadres, mais elle simplifie et crée des données adaptées à l'utilisation des machines. Objectifs de conception Dans une interview précédente avec EE Times, Prophesee a déclaré que cela peut réduire considérablement le fardeau des données et devrait permettre à la voiture de prendre des décisions presque instantanées.

Cependant, la nouvelle génération du système de vision stéréoscopique IBM utilise non seulement la technologie du cerveau humain pour la récupération de données, mais aussi pour le traitement des données pour reconstruire des images stéréoscopiques, Andreopoulos dit que le système a l'une des plus grandes réalisations programmées par TrueNorth. Implémenter efficacement les diverses sous-routines nécessaires à la vision stéréoscopique des réseaux neuronaux IBM a ajouté que l'architecture de la puce TrueNorth consomme moins d'énergie que les systèmes traditionnels, ce qui serait bénéfique pour les systèmes de conduite automatisés. Conception

De même, en utilisant une paire de caméras DVS (bloc d'information non-formule) peut réduire la quantité de données et la consommation d'énergie et d'augmenter la vitesse, une latence réduite, une meilleure plage dynamique, mais ces éléments clés sont IBM ladite conception d'un système instantané. lorsqu'on les interroge sur le nouveau système ainsi que les avantages TrueNorth, a déclaré Andreopoulos, par rapport au système classique utilisant le dernier processeur de CPU / GPU ou FPGA, les disparités entre les pixels carte chacun de la puissance (puissance par carte de disparité de pixels) deux fois Améliorations

Utilisation de l'entrée basée sur les événements, l'alimentation des données d'image en temps réel du système IBM 9 jetons TrueNorth pour le traitement, peuvent être calculées par 400 carte de disparité, retardé seulement 11 millisecondes (ms). IBM a noté dans le document, par Par des compromis spécifiques, le système peut encore augmenter le taux à 2 000 cartes de disparité par seconde.

Quand les systèmes de vision stéréoscopique avec les puces TrueNorth peuvent-ils être commercialisés? "Andreopoulos a déclaré:" Nous ne pouvons pas encore dire que nous avons testé et programmé avec succès la puce pour gérer efficacement les cartes de disparité.

Compilation: Judith Cheng

2016 GoodChinaBrand | ICP: 12011751 | China Exports