计算机专家尼克拉斯·卡利尼 (Nicholas Carlini) 和大卫·瓦格纳 (David Wagner) 成功欺骗Mozilla最流行的DeepSpeech开源文本-语音转换系统. 给出任意一段音频声波, 科学家就可以制作出另一段音频声波, 相似度超过99.9%, 转录时科学家可以选择任意短语, 速度最高可以达到每秒50字符. 攻击的成功率高达100%, 不论想要转录的语音是怎样的, 最初所说的源短语是怎样的, 都可以成功. 如果输入的是任意波形的声音, 但不是语音, 比如输入音乐, 科学家可以将语音插入音频, 你无法识别它是语音; 让语音保持静默, 就可以将音频隐藏到文本-语音转换系统.
也就是说, 从理论上讲, 科学家可以处理任意音频文件, 欺骗文本-语音转换器, 让它们相信音频是其它东西. 当今的世界到处都是智能音箱和语音助手, 新攻击技术无疑是一枚重磅炸弹.