Desde o lançamento da boneca Julebox, da IBM, a tecnologia de reconhecimento de voz vem evoluindo constantemente. No final de 2018, o Google Assistant suporta mais de 30 idiomas diferentes.
A Qualcomm também desenvolveu um sistema de reconhecimento de fala que reconhece palavras e frases com uma taxa de precisão de 95% Além disso, o serviço de voz inteligente da Microsoft é mais preciso e eficiente do que os serviços de chamadas manuais.
No entanto, embora o aprendizado de máquina tenha aumentado o desenvolvimento da tecnologia de reconhecimento de fala, esses sistemas de reconhecimento de fala ainda não são perfeitos, e o problema mais sério é a discriminação geográfica.
De acordo com um estudo recente conduzido pelo Washington Post, os assistentes de voz inteligentes populares desenvolvidos pelo Google e pela Amazon reconhecem os sotaques locais fora dos EUA com uma precisão 30% menor do que os sotaques locais dos EUA.
Empresas como a IBM e a Microsoft usarão o corpus do Switchboard para reduzir a taxa de erros dos assistentes de voz, mas o corpo não consegue resolver completamente o problema de reconhecimento de acento dos assistentes de voz.
"Os dados são confusos, porque os dados refletem a natureza humana", disse Rumman Chowdhury, Responsável por Responsabilidade Global da Accumer, "É aí que o algoritmo se destaca: Buscando padrões de comportamento humanos".
O viés algorítmico indica o grau em que os modelos de aprendizado de máquina são influenciados pelos dados ou pelo design.Muitos relatórios de notícias geraram um viés considerável nos sistemas de reconhecimento facial (especialmente o reconhecimento de imagem Rekognition of Amazon Web Services).
Além disso, o viés do algoritmo pode ocorrer em outras áreas, como prever se o réu estará no futuro de sistemas automatizados e algoritmos de recomendação de conteúdo por trás do Google Notícias e outros aplicativos.
Líderes da indústria de IA e Microsoft, incluindo IBM, Qualcomm e Facebook, desenvolveram ferramentas automatizadas para detectar e reduzir o viés em algoritmos de IA, mas poucos podem propor soluções específicas para acentuar problemas de identificação.
Existem apenas duas empresas que realmente apresentam uma solução: uma é a Speechmatics e a outra é a Nuance.
Resolver o problema do hiato de acento
A Speechmetrics, uma empresa de tecnologia de Cambridge especializada em software de reconhecimento de voz empresarial, implementou um programa ambicioso há 12 anos para desenvolver um sistema de reconhecimento de linguagem mais preciso e abrangente do que qualquer produto no mercado.
Originalmente, a empresa pesquisou modelagem de linguagem estatística e redes neurais recorrentes e desenvolveu um modelo de aprendizado de máquina capaz de lidar com sequências de saída de memória.Em 2014, foi usado um corpus de gigabytes para acelerar o desenvolvimento de sua modelagem de linguagem estatística. Desde então, o primeiro passo foi dado.
Em 2017, foi necessário outro marco: Desenvolveu um serviço de conversão do idioma árabe em cooperação com o Instituto de Computação do Qatar (QCRI).
'Descobrimos que precisávamos para desenvolver um sistema de reconhecimento de voz, apenas um modo será capaz de aplicar-se a todas as línguas, não há problema sotaque, e identifica a precisão sotaque e transcrição sotaque escocês Australian tão alto.' Speechmatics Chief Executive Oficial Benedikt von Thüngen disse.
Em julho deste ano, eles desenvolveram com sucesso um sistema de reconhecimento de voz, tais Inglês Global. Tem mais de 40 países, milhares de horas de dados de voz e diversos dez mil milhões de palavras, a função de conversão de texto de voz toda acentuados Inglês.
Além disso, a Global Inglês também é inseparável do estabelecimento de Speechmatic automática Linguist, que é uma estrutura de inteligência artificial para aprender a língua de base para um novo idioma usando a linguagem conhecida em padrões reconhecíveis.
Suponha que você queira falar com americanos do outro lado, e você tem que se comunicar com australianos do outro lado, e esse americano morava no Canadá, então há um sotaque canadense, e a maioria dos sistemas de reconhecimento de fala terá dificuldade em reconhecer essa diferença. A linguagem do sotaque, mas nosso sistema de reconhecimento de fala não precisa se preocupar com esse problema. ”Ian Firth, vice-presidente de produtos da Speechmatics, disse em uma entrevista.
No teste, o Global English teve um desempenho melhor do que o Google Cloud Speech API e o IBM's Cloud reconhecendo sotaques específicos.Thüngen disse que, no campo de ponta, sua precisão é de 23% a 55% maior que a de outros produtos. %.
A fala não é a única empresa que quer resolver o problema de identificação de sotaque.
Com sede em Berlim, Massachusetts Dayton Nuance disse que vai usar uma variedade de métodos para garantir que o sistema de reconhecimento de voz pode identificar quase 80 línguas, e alta precisão são os mesmos.
Em seu modelo de linguagem no Reino Unido, que recolhe região dialeto os dados de voz e texto 20 específica, incluindo cada palavra de dialeto único (como o uso da palavra 'cob' refere-se especificamente aos rolos) e pronúncia. Portanto, este Nuance o sistema de reconhecimento de voz será capaz de identificar 52 expressão diferente 'Heathrow' de.
Hoje, o sistema de reconhecimento de voz Nuance tem um novo desenvolvimento. Dragão é uma versão atualizada da fala Nuance ao texto portfólio de software personalizado desenvolvido, que muda automaticamente o modelo de aprendizagem de máquina em vários dialetos diferentes de acordo com o sotaque do usuário.
Comparada com a versão antiga sem a função dialect automatic switching, a nova versão do sistema de reconhecimento de voz reconhece a precisão do inglês com um sotaque espanhol em 22,5% e a precisão da identificação do dialeto sul-americano em 16,5%, o que identifica a precisão do sudeste asiático. A taxa é 17,4% maior.
Quanto mais dados, melhor
Em última análise, o acento do reconhecimento de fala é causado por dados insuficientes Quanto maior a qualidade do corpus, mais diversificado é o modelo de linguagem, então, pelo menos teoricamente, a precisão do sistema de reconhecimento de fala é maior.
No estudo do Washington Post, o Assistente Inteligente de Voz do Google reconhece a exatidão do idioma sul-americano a uma taxa 3% menor do que a precisão da identificação do idioma ocidental americano O Eco da Amazon reconhece o idioma do Meio-Oeste dos EUA com uma precisão 2% menor.
Um porta-voz da Amazon disse ao Washington Post que, à medida que mais usuários falam em sotaques diferentes, a capacidade de reconhecimento de fala do Alexa continuará a melhorar e, em um comunicado, o Google disse que expandirá seus bancos de dados. Melhore continuamente a tecnologia de reconhecimento de fala do Google Assistant.
À medida que mais e mais usuários usam sistemas de reconhecimento de voz, suas funções serão ainda mais aprimoradas.De acordo com a empresa de pesquisa de mercado Canalys, quase 100 milhões de sistemas de voz inteligentes são vendidos globalmente até 2019. E, em 2022, Cerca de 55% das famílias americanas possuem um sistema de voz inteligente.
Não espere uma solução que solucione completamente o problema do sotaque. ”De acordo com o atual desenvolvimento tecnológico, você não pode desenvolver um sistema de reconhecimento de voz com a maior precisão e adequado para usuários em todo o mundo”, disse Faith. “A melhor coisa que você pode fazer. É para garantir que esses sistemas de reconhecimento de fala possam identificar com precisão os sotaques daqueles que os estão usando.