Google использует ИИ для извлечения независимых треков из шумной среды: или существуют проблемы конфиденциальности@goodchinabrand.com

Исследователи Google разработали систему глубокого обучения, которая помогает компьютерам лучше распознавать и отличать голос человека в шумной среде.

Статья, опубликованная на этой неделе в блоге Google Research, показывает, что внутренняя команда компании пытается сделать искусственный интеллект (AI), подобно человеческому мозгу, активно фокусироваться на звуковом источнике при фильтрации других источников звука - так же, как вы на вечеринке. Когда разговариваете с друзьями.

Подход Google использует аудиовизуальную модель, которая позволяет сосредоточиться на звуках видео. Компания также выпустила несколько видеороликов YouTube, чтобы продемонстрировать фактический эффект технологии.

Google сказал, что эта технология может применяться к однодорожечному видео и может отделять аудиоконтент разных людей в видео по алгоритму, а также позволять пользователю вручную выбирать лицо в видео, чтобы специально прослушивать голос человека.

Google сказал, что визуальный элемент - это ключ, потому что эта технология будет сосредоточена на движении губ человека, чтобы лучше судить, какая часть звука должна быть сосредоточена в определенное время, и создать более точную независимую звуковую дорожку для более длительного видео.

Исследователи Google разработали эту модель, собрав 100 000 речевых видеороликов YouTube. Всего было извлечено около 2000 часов контента, затем звуковые дорожки были смешанными и добавлен искусственный фоновый шум.

Позднее Google обучил технологию сегментирования смешанного звука, наблюдая спектрограммы граней и видеодорожек в каждом кадре видео. Эта система может отличить, какой источник принадлежит лицу в определенный период времени, и Каждый делает отдельную звуковую дорожку.

Google полагает, что системы с закрытыми субтитрами станут основной областью применения системы, а также рассмотрят более широкий круг приложений и изучат больше возможностей для интеграции их в различные продукты Google. Например, если Добавив его в интеллектуальный динамик Google Home, вы можете различать инструкции, выпущенные разными пользователями.

Однако эта модель должна хорошо работать с видео, поэтому она может быть более подходящей для Amazon Echo Show. Google открыл помощник Google для смарт-дисплеев, таких как Echo Show в начале этого года, но сама компания еще не запустила такие продукты.

Однако эта технология также может вызывать проблемы конфиденциальности. Хотя фактический эффект технологии намного меньше, чем видеопрезентация, она действительно может стать мощным средством мониторинга и мониторинга с некоторыми незначительными корректировками.