В компьютерном видении, таком как Роджерио Ферис, менеджер по компьютерному видению и мультимедийным исследованиям в IBM Research, самая большая проблема заключается в том, как «сделать визуальный анализ более эффективным». В частности, AI все еще находится на ранней стадии разработки и нуждается в новых Идеи, долгосрочное видение и больше инвестиций в исследования и разработки академиками и исследовательскими институтами.
IBM Research публикует две статьи по программным и аппаратным средствам ИИ на этой неделе в 2018 году на конференции по компьютерному видению и распознаванию образов (CVPR), которая состоялась на этой неделе в Солт-Лейк-Сити. CVPR спонсируется компанией Computer Vision Foundation и IEEE Computer Society и считается одним из наиболее конкурентоспособных компьютерных технологий.
В разделе аппаратного обеспечения AI компания IBM Research продвигает систему стереовидения, которая применяет технологию нейронной сети, основанной на мозге, для сбора данных (датчиков). Разработанная компанией Data Processing, проект использует собственный чип TureNorth от IBM - процессор архитектуры, отличного от von-Neumann, и развитие событий в швейцарской индустрии iniLabs. ) Камера
Архитектура IBM TrueNorth от IBM (Источник: IBM)
В разделе программного обеспечения AI в документе IBM Research говорится о «Blockdrop», ключевом шаге, который, как считается, уменьшает общий объем вычислений, необходимых для глубоких остаточных сетей. Ферис объяснил, что эти две статьи взяты из Решите ту же проблему с двух разных точек зрения - эффективность визуального анализа.
Феррис сказал, что когда кто-то хочет пересечь дорогу, ожидается, что автомобиль с самообслуживанием сделает «мгновенный вывод», хотя точность распознавания изображений очень важна, но сколько времени требуется, чтобы управлять автомобилем, чтобы сделать выводы и определить, что это такое, является Его окончательный тест в реальных приложениях.
Что такое «Blockdrop»?
Остаточная сеть, которая стала победителем в ImageNet 2015, вызвала шторм в сообществе технологий компьютерного зрения, эта технология доказала, что она может обеспечить отличные результаты распознавания, поскольку она может обучать сотни или даже сотни нейронных сетей. Тысячи слоев. Тем не менее, Ферис указывает: «Применение операции одноразового ввода, требуемой остаточной сетью для всей обработки изображений, слишком неэффективно», - пояснил он, что если на белом фоне есть собака, она будет на оживленной городской улице. Легче идентифицировать.
По этой причине IBM Research разработала BlockDrop, который является способом узнать, какие блоки (в том числе несколько слоев) в остаточной сети динамически выполняют задачи вывода, а Ферис отметил: «Целью этого метода является правильное сокращение общих вычислений Без потери точности прогноза.
Инструкции BlockDrop (Источник: IBM)
IBM утверждает, что BlockDrop может повысить скорость распознавания в среднем на 20% во время тестирования, а иногда даже до 36%, не жертвуя точностью остаточной сети, полученной в наборе данных ImagNet. Ферис сказал, что исследование IBM было в 2017 году. Летом в Техасском университете и Университете штата Мэриленд компания выпустит BlockDrop для сообщества с открытым исходным кодом.
Нейроморфные методы для приложений стереовидения
Что касается аппаратного обеспечения, IBM Research нацелена на систему стереоскопического зрения, которая использует шипованные нейронные сети, компания заявила, что в настоящее время в отрасли используются две традиционные (фреймовые) камеры для создания стереоскопического зрения, но никто еще не пробовал это. Нейроморфная технология. Хотя стереоизображение с использованием обычных камер не представляется невозможным, требуется обработка видеосигнала высокой четкости, например, высокая динамическая дальность (HDR), обработка сверхвысокого разрешения и автоматическая калибровка.
Согласно исследователю IBM Александру Андреопулосу, описанному в статье, система использует две разработанные iniLabs ориентированные на события камеры (также известные как датчик динамического зрения - DVSe), после захвата изображения с помощью чип-кластера IBM TrueNorth для извлечения быстродвижущихся объектов глубина.
Цель IBM состоит в том, чтобы значительно снизить энергопотребление и латентность, необходимые для получения стереоскопических изображений. После получения входного сигнала спайка (который значительно сократил объем данных) система использует невроморфное оборудование IBM для восстановления трехмерных изображений. Оцените разницу между изображениями двух DVSe и найдите объекты в трехмерном пространстве путем триангуляции.
Нейроморфные стереоизображения (Источник: IBM)
Поиск и обработка данных
Французская стартап-компания Prophesee использует нейроморфологию для сбора данных и уменьшения объема данных, собираемых датчиками. Сенсорная технология компании основана не на фреймах, а упрощает и создает данные, пригодные для использования в машинах. Цели дизайна. В более раннем интервью EE Times Prophesee сказал, что это может значительно снизить нагрузку на данные и позволить автомобилю принимать почти мгновенные решения.
Однако новое поколение системы стереоскопического зрения IBM использует не только технологию человеческого мозга для поиска данных, но также и для обработки данных для восстановления стереоскопических изображений. Андреопулос сказал, что система имеет одно из самых больших достижений, которое запрограммировано TrueNorth. Эффективно внедряйте различные «подпрограммы», которые необходимы для «вращающегося нейронного сетевого стерео зрения». IBM добавила, что архитектура чипа TrueNorth потребляет меньше энергии, чем традиционные системы, что было бы полезно для автоматизированных систем управления. дизайн.
Точно так же использование пары DVS-камер (не обрамленных) также может уменьшить объем данных и энергопотребление, а также увеличить скорость, уменьшить задержку, обеспечить лучший динамический диапазон, и IBM заявила, что это ключевые элементы разработки мгновенной системы. Отвечая на вопрос о преимуществах новой системы TrueNorth, Андреопулос сказал, что она имеет в два раза больше мощности на пиксельную карту различий, чем самые современные системы, использующие традиционные процессоры CPU / GPU или FPGA. улучшение.
Используя вход на основе событий, данные изображения в реальном времени, подаваемые в систему IBM, обрабатываются с помощью 9 чипов TrueNorth, которые могут вычислять 400 карт различий в секунду с задержкой в 11 миллисекунд (мс). IBM указала в документе, что заимствование По конкретным компромиссам система может дополнительно увеличить скорость до 2000 карт различий в секунду.
Когда можно использовать системы стереоскопического зрения с чипами TrueNorth? Андреапулос сказал: «Мы пока не можем раскрыть моменты времени. Мы можем только сказать, что мы протестировали и успешно запрограммировали чип, чтобы эффективно обрабатывать карты несоответствий. На этом этапе это доказательство концепции.
Компиляция: Джудит Ченг