Os especialistas em informática Nicholas Carlini e David Wagner conseguiram enganar o conversor de texto a fala DeepSpeech de Mozilla mais popular da Mozilla, dando a qualquer um uma onda de som de áudio para um cientista para fazer outra As ondas sonoras de áudio, com uma similaridade de mais de 99,9%, permitem aos cientistas selecionar qualquer frase à velocidade de transcrição de até 50 caracteres por segundo. A taxa de sucesso dos ataques é tão alta quanto 100%, independentemente do discurso que está sendo transcrito e a frase fonte original Se você inserir sons de forma de onda arbitrária, mas não a voz, como a entrada de música, os cientistas podem inserir a voz no áudio e você não pode reconhecê-la como voz; pode esconder o áudio mantendo-o silencioso Sistema de conversão de texto - voz.
Em outras palavras, em teoria, os cientistas podem manipular arquivos de áudio arbitrários e enganar o conversor de texto para voz para convencê-los de que o áudio é outra coisa. O mundo de hoje está cheio de alto-falantes inteligentes e assistentes de voz, e a nova técnica de ataque é, sem dúvida, uma Blockbuster.