自從IBM的Shoebox和Worlds of Wonder的玩具娃娃Julie doll發布以來, 語音識別技術一直在不斷地發展. 到2018年底, Google Assistant支援超過30種不同的語言.
高通也開發了一款可以識別單詞和短語的語音識別系統, 其準確率高達95%. 此外, 微軟的智能語音客服比人工呼叫服務更加準確高效.
然而, 儘管機器學習使語音識別技術的發展突飛猛進, 如今這些語音識別系統還是不夠完美, 最嚴重的問題就是有地域歧視性.
華盛頓郵報最近進行的一項研究結果顯示, 穀歌和亞馬遜研發的流行智能語音助手識別非美國本地口音的準確率要比美國本地口音低30%.
像IBM和微軟這樣的公司都會通過Switchboard語料庫來降低語音助手的出錯率. 但是事實證明, 語料庫也無法徹底解決語音助手的口音識別問題.
'數據是混亂的, 因為數據反映了人性, ' 埃森哲的全球責任AI監理Rumman Chowdhury說, '這就是演算法最擅長之處: 尋求人類行為模式. '
演算法偏差表示機器學習模型對數據或者設計產生偏見的程度. 很多新聞報道都對面部識別系統(尤其是亞馬遜網路服務的映像識別Rekognition)產生了不小的偏見.
而且, 演算法偏差還會出現在其他方面, 比如預測被告是否會在未來犯罪的自動化系統以及穀歌新聞等app背後的內容推薦演算法.
微軟以及包括IBM, 高通和Facebook在內的AI行業領導者已經開發出自動化工具, 用於檢測並減少AI演算法中產生的偏差, 但很少有人能夠提出口音識別問題的具體解決方案.
真正提出解決方案的只有兩家公司. 一個是Speechmatics, 另一個便是Nuance.
解決口音差距問題
Speechmetrics是一家專門研究企業語音識別軟體的劍橋科技公司, 它於12年前就開始實施了一項雄心勃勃的計劃, 旨在開發比市場上任何產品更準確全面的語言識別系統.
該公司最初是研究統計語言建模和迴圈神經網路. 它開發了一種可以處理記憶體輸出序列的機器學習模型. 2014年, 它利用一個十億位元組的語料庫加速其統計語言建模的發展, 從此邁出了第一步.
到了2017年, 它又邁向了另一個裡程碑: 與卡塔爾計算研究所(QCRI)合作開發了阿拉伯語言文字轉換服務.
'我們已經發現我們需要開發一款語音識別系統, 只需一種模式便能適用於所有語言, 不再有口音問題, 並且它識別澳大利亞口音的準確度和轉錄蘇格蘭口音一樣高. ' Speechmatics首席執行官Benedikt vonThüngen說.
他們在今年七月成功研發了一款這樣的語音識別系統Global English. 它擁有40多個國家的數千小時的語音數據和數百億單詞, 支援所有英語口音的語音文本轉換功能.
此外, Global English的建立還離不開Speechmatic的Automatic Linguist, 這是一種人工智慧框架, 通過利用已知語言中識別的模式來學習新語言的語言基礎.
'假設你一邊要和美國人交談, 另一邊還要和澳大利亞人交流, 而且這個美國人曾經住在加拿大, 所以有加拿大口音, 這時大多數的語音識別系統都會很難識別這種帶有不同口音的語言, 但是我們的語音識別系統就完全不用擔心這個問題. ' Speechmatics公司產品副總裁Ian Firth在一次採訪中說.
在測試中, Global English在識別特定的口音方面表現的比穀歌的Cloud Speech API和IBM的Cloud還要出色. Thüngen表示, 在高端領域中, 它的準確率比其他產品還要高23%到55%.
Speechmatics並不是唯一一家想要解決口音識別問題的公司.
總部位於麻薩諸塞州柏林頓的Nuance表示, 它將採用多種方法, 確保其語音識別系統能夠識別將近80種語言, 並且準確率都一樣高.
在其英國語言模型中, 它收集了20個特定方言區域的語音和文本數據, 包括每種方言獨有的單詞(比如使用單詞 'cob' 特指麵包卷)及其發音. 因此, 這款Nuance的語音識別系統便能識別出 'Heathrow' 的52種不同表達方式.
如今, Nuance語音識別系統又有了新的發展. 更新版本的Dragon是Nuance研發的定製語音文本轉換軟體組合, 其機器學習模型可根據用戶的口音在幾種不同的方言中自動切換.
與沒有方言自動切換功能的舊版本相比, 新版本的語音識別系統識別帶有西班牙口音的英語的準確率要高22.5%, 識別美國南部方言的準確率要高16.5%, 識別東南亞英語的準確率要高17.4%.
數據越多越好
歸根結底, 語音識別的口音問題是由於數據不足產生的. 語料庫的質量越高, 語言模型越多種多樣, 那麼至少從理論上來說語音識別系統的準確率越高.
在華盛頓郵報的研究中, Google Home智能語音助手識別美國南部語言的準確率要比識別美國西部語言的準確率低3%. 而亞馬遜的Echo識別美國中西部語言的準確率要低2%.
亞馬遜的一位發言人告訴華盛頓郵報, 隨著更多的用戶用不同的口音說話, Alexa的語音識別能力會不斷提高. 並且, 穀歌在一份聲明中表示, 他們將通過擴大自己的資料庫, 不斷改進Google Assistant的語音識別技術.
隨著使用語音識別系統的用戶越來越多, 它們的功能會進一步提升. 根據市場研究公司Canalys數據顯示, 到2019年之前, 將近1億智能語音系統在全球銷售. 並且, 在2022年之前, 大約55%的美國家庭都會擁有一個智能語音系統.
不要指望有徹底解決口音問題的方案. '按現在的技術發展, 你不可能研發出準確率最高並且適用於全世界用戶的語音識別系統, ' Faith說. '你能做的最好的事情便是保證這些語音識別系統能夠準確識別那些正在使用它們的用戶的口音. '