С момента выпуска куклы Julie от IBM Shoebox и кукол «Куклы Wonder» технология распознавания речи постоянно развивается. К концу 2018 года Google Assistant поддерживает более 30 различных языков.
Qualcomm также разработала систему распознавания речи, которая распознает слова и фразы с точностью до 95%. Кроме того, интеллектуальная голосовая служба Microsoft является более точной и эффективной, чем услуги ручного вызова.
Однако, хотя машинное обучение привело к развитию технологии распознавания речи, эти системы распознавания речи все еще не идеальны. Наиболее серьезной проблемой является географическая дискриминация.
Согласно недавнему исследованию, проведенному Washington Post, популярные интеллектуальные голосовые помощники, разработанные Google и Amazon, признают неамериканские локальные акценты с меньшей точностью на 30%, чем американские локальные акценты.
Такие компании, как IBM и Microsoft, будут использовать корпус коммутатора для уменьшения частоты ошибок голосовых ассистентов. Но оказывается, что корпус не может полностью решить проблему распознавания акцентов голосовых ассистентов.
«Данные сбивают с толку, потому что данные отражают человеческую природу», - сказал главный научный сотрудник Accumer AI Supervisor Rumman Chowdhury. «Именно здесь алгоритм превосходит: поиск моделей поведения человека».
Алгоритмическое смещение указывает на то, в какой степени модели машинного обучения предвзяты к данным или дизайну. Многие новостные сообщения вызвали значительный уклон в системах распознавания лиц (особенно в распознавании изображений Rekognition of Amazon Web Services).
Более того, смещение алгоритма может возникать в других областях, например, предсказывать, будет ли ответчик в будущем автоматическими системами и алгоритмами рекомендаций по содержанию в Google News и других приложениях.
Руководители Microsoft и AI, включая IBM, Qualcomm и Facebook, разработали автоматизированные инструменты для обнаружения и уменьшения смещения в алгоритмах AI, но мало кто может предложить конкретные решения проблем идентификации акцентов.
Есть только две компании, которые действительно придумали решение. Один из них - Speechmatics, а другой - Nuance.
Решите проблему разрыва акцента
Speechmetrics, технологическая компания Cambridge, специализирующаяся на программном обеспечении распознавания речи предприятия, 12 лет назад внедрила амбициозную программу для разработки более точной и всеобъемлющей системы распознавания речи, чем любой продукт на рынке.
Первоначально компания изучала моделирование статистического языка и повторяющиеся нейронные сети, разработала модель машинного обучения, которая может обрабатывать последовательности вывода памяти. В 2014 году она использовала корпус гигабайта для ускорения разработки своего моделирования статистического языка. С тех пор был сделан первый шаг.
В 2017 году он занял еще одну веху: в сотрудничестве с Катарским вычислительным институтом (QCRI) была разработана служба преобразования арабского языка.
«Мы обнаружили, что нам нужно разработать систему распознавания речи, которая может применяться ко всем языкам в одном режиме, больше не имеет проблемы с акцентом, и она признает точность австралийского акцента настолько высокой, как транскрипционный шотландский акцент». Главный исполнительный директор Speechmatics Сказал офицер Бенедикт фон Тюнген.
В июле этого года они успешно разработали систему распознавания речи под названием Global English. Она содержит тысячи часов голосовых данных и десятки миллиардов слов в более чем 40 странах и поддерживает голосовое и текстовое преобразование всех английских акцентов.
Кроме того, создание глобального английского языка неотделимо от автоматизированного лингвиста Speechmatic, системы искусственного интеллекта, которая изучает основы языка нового языка, используя шаблоны, признанные на известных языках.
«Предположим, вы хотите поговорить с американцами с другой стороны, и вам нужно общаться с австралийцами с другой стороны, и этот американец жил в Канаде, поэтому есть канадский акцент, и большинству систем распознавания речи будет трудно распознать эту разницу. Язык акцента, но наша система распознавания речи не должна беспокоиться об этой проблеме вообще », - сказал в интервью Иэн Ферт, вице-президент по продуктам Speechmatics.
В тесте глобальный английский оказался лучше, чем API облачной речи Google и Clouds от IBM в распознавании конкретных акцентов. Thüngen сказал, что в high-end поле его точность на 23% -55 выше, чем у других продуктов. %.
Speechmatics - не единственная компания, которая хочет решить проблему идентификации акцента.
Нюанс, базирующаяся в Берлингтоне, штат Массачусетс, заявила, что будет использовать множество методов, чтобы гарантировать, что система распознавания речи распознает почти 80 языков с такой же высокой точностью.
В своей модели на английском языке он собирает речевые и текстовые данные для 20 конкретных диалектных областей, включая слова, которые уникальны для каждого диалекта (например, слово «cob», характерное для булочки) и его произношение. Поэтому этот нюанс Система распознавания речи распознает 52 разных выражения «Хитроу».
В настоящее время система распознавания речи Nuance имеет новую разработку. Обновленная версия Dragon - это комбинация настраиваемого программного обеспечения для преобразования речи и текста, разработанного Nuance. Модель машинного обучения может автоматически переключаться на несколько разных диалектов в соответствии с акцентом пользователя.
По сравнению со старой версией без функции автоматического переключения диалекта новая версия системы распознавания речи распознает точность английского языка с испанским акцентом на 22,5% и точность идентификации южноамериканского диалекта на 16,5%, что определяет точность текста на юго-востоке Азии. Ставка на 17,4% выше.
Чем больше данных, тем лучше
В конечном счете, акцент распознавания речи обусловлен недостаточными данными. Чем выше качество корпуса, тем более разнообразная языковая модель, по крайней мере теоретически точность системы распознавания речи выше.
В исследовании Washington Post Intelligent Voice Assistant Google Home распознает точность южноамериканского языка со скоростью, которая на 3% ниже точности идентификации западноевропейского языка. Echo Amazon распознает американский средний язык с 2% -ной точностью.
Представитель Amazon сказал Washington Post, что, поскольку все больше пользователей говорят по-разному, возможности распознавания речи Alexa будут продолжать улучшаться. И в заявлении Google сказал, что они расширят свои базы данных. Непрерывно улучшайте технологию распознавания речи Google Assistant.
По мере того, как все больше и больше пользователей используют системы распознавания голоса, их функции будут еще более расширены. По данным исследовательской фирмы Canalys, к 2019 году глобально продается почти 100 миллионов интеллектуальных голосовых систем. И к 2022 году, Около 55% американских домохозяйств имеют интеллектуальную голосовую систему.
Не ожидайте решения, которое полностью решает проблему акцента. «Согласно существующему технологическому развитию, вы не можете разработать систему распознавания речи с наивысшей точностью и подходящую для пользователей во всем мире», - сказала Фей. «Лучшее, что вы можете сделать. Это необходимо для того, чтобы эти системы распознавания речи могли точно идентифицировать акценты тех, кто их использует ».