《聖經. 舊約. 創世紀》第11章記載, 在大洪水退去後, 這世界上的人類都是諾亞的子孫, 說同樣的語言. 那時人類開始合作, 建造名為巴別塔的通天之塔. 這個舉動驚動了神, 因此神讓全世界的人類開始有了不同的語言, 從此人類再也無法齊心合作. 造通天塔的計劃以失敗告終, 語言差異也成為了人類溝通時最大的障礙. 也許是血液中仍有想要重建巴別塔的夢想, 因此翻譯就成為人類在過去千百年歷史不斷演化的重點文化工程.
語言的隔閡並不是那麼容易打破的, 尤其是要跨語言來理解同樣的概念. 人類曆史上第一次出現跨語言的平行語料, 是製作於公元前196年的羅賽塔石碑(Rosetta Stone), 上面同時使用了古埃及文, 古希臘文以及當地通俗文字, 來記載古埃及國王托勒密五世登基的詔書. 這也是翻譯的重大裡程碑.
基於規則的機器翻譯
至於機器翻譯的源頭, 可以追溯至1949年, 資訊理論研究者Warren Weave正式提出了機器翻譯的概念. 五年後, 也就是1954年, IBM與美國喬治敦大學合作公布了世界上第一台翻譯機IBM-701. 它能夠將俄語翻譯為英文, 別看它有巨大的身軀, 事實上它裡面只內建了6條文法規則, 以及250個單字. 但即使如此, 這仍是技術的重大突破, 那時人類開始覺得應該很快就能將語言的高牆打破.
可能是神察覺有異, 又對人類重建巴別塔的計劃潑了一桶冷水. 1964年, 美國科學院成立了語言自動處理諮詢委員會(Automatic Language Processing Advisory Committee, ALPAC). 兩年後, 在委員會提出的報告中認為機器翻譯不值得繼續投入, 因為這份報告, 造成接下來的十來年中, 美國的機器翻譯研究幾乎完全停滯空白.
從IBM的第一台翻譯機誕生到20世紀80年代, 那時的技術主流都是基於規則的機器翻譯. 最常見的作法就是直接根據詞典逐字翻譯, 雖然後來也有人倡議加入句法規則來修正. 但是老實說, 翻出來的結果都很令人沮喪, 因為看起來蠢到極點. 因此, 到了80年代這樣的作法就銷聲匿跡了.
為何語言沒辦法套用規則? 因為語言是極其複雜且模糊的系統, 從字的歧義到各種修辭, 根本不可能窮舉出所有規則. 但有趣的是, 不少近期投身於自然語言的新創公司, 仍然企圖用窮舉規則來解決中文語義, 但這種想法鐵定會是以失敗告終的.
我在這舉個例子來說明為何規則是不可行的. 先別提翻譯在兩個語言轉換的複雜性, 光是從中文來說, 「快遞送貨很快」這樣的概念你能想到多少種講法? 10種? 還是100種? 在我們之前做過的自然語言統計數據來看, 一共可能會有3600種講法, 而且這個數字應該還會隨時間增加. 光一個概念如此簡單的句子就能有那麼複雜的規則體系, 若用到翻譯恐怕規則量會是個驚人的天文數字, 因此基於規則的機器翻譯思路就成為了昨日黃花.
基於實例的機器翻譯
在全世界都陷入機器翻譯低潮期, 卻有一個國家對於機器翻譯有著強大的執念, 那就是日本. 日本人的英文能力差舉世皆知, 也因此對機器翻譯有強烈的剛性需求.
日本京都大學的長尾真教授提出了基於實例的機器翻譯, 也就是別再去想讓機器從無到有來翻譯, 我們只要存上足夠多的例句, 即使遇到不完全匹配的句子, 我們也可以比對例句, 只要替換不一樣的詞的翻譯就可以. 這種天真的想法當然沒有比基於規則的機器翻譯高明多少, 所以並未引起風潮. 但是沒多久, 人類重建巴別塔的希望似乎又重見曙光.
基於統計的機器翻譯
引爆統計機器翻譯熱潮的還是IBM, 在1993年發布的《機器翻譯的數學理論》論文中提出了由五種以詞為單位的統計模型, 稱為「IBM模型1」到「IBM模型5 」.
統計模型的思路是把翻譯當成機率問題. 原則上是需要利用平行語料, 然後逐字進行統計. 例如, 機器雖然不知道「知識」的英文是什麼, 但是在大多數的語料統計後, 會發現只要有知識出現的句子, 對應的英文例句就會出現「Knowledge」這個字. 如此一來, 即使不用人工維護詞典與文法規則, 也能讓機器理解單詞的意思.
這個概念並不新, 因為最早Warren Weave就提出過類似的概念, 只不過那時並沒有足夠的平行語料以及限於當時計算器的能力太弱, 因此沒有付諸實行. 現代的統計機器翻譯要從哪裡去找來「現代的羅賽塔石碑」呢? 最主要的來源其實是聯合國, 因為聯合國的決議以及公告都會有各個會員國的語言版本, 但除此之外, 要自己製作平行語料, 以現在人工翻譯的成本換算一下就會知道這成本高到驚人.
在過去十來年, 大家所熟悉的Google翻譯都是基於統計機器翻譯. 聽到這, 應該大家就清楚統計翻譯模型是無法成就通天塔大業的. 在各位的印像中, 機器翻譯還只停留在「堪用」而非是「有用」的程度.
神經網路機器翻譯
到了2014年, 機器翻譯迎來了史上最革命的改變——「深度學習」來了!
神經網路並不是新東西, 事實上神經網路發明已經距今80多年了, 但是自從2006年Geoffrey Hinton(深度學習三尊大神之首)改善了神經網路優化過於緩慢的致命缺點後, 深度學習就不斷地伴隨各種奇蹟似的成果頻繁出現在我們的生活中. 在2015年, 機器首次實現映像識別超越人類; 2016年, Alpha Go戰勝世界棋王; 2017年, 語音識別超過人類速記員; 2018年, 機器英文閱讀理解首次超越人類. 當然機器翻譯這個領域也因為有了深度學習這個超級肥料而開始枝繁葉茂.
深度學習三大神中的Yoshua Bengio在2014年的論文中, 首次奠定了深度學習技術用於機器翻譯的基本架構. 他主要是使用基於序列的遞歸神經網路(RNN), 讓機器可以自動捕捉句子間的單詞特徵, 進而能夠自動書寫為另一種語言的翻譯結果. 此文一出, Google如獲至寶. 很快地, 在Google供應充足火藥以及大神的加持之下, Google於2016年正式宣布將所有統計機器翻譯下架, 神經網路機器翻譯上位, 成為現代機器翻譯的絕對主流.
Google的神經網路機器翻譯最大的特色是加入了注意力機制(Attention), 注意力機制其實就是在模擬人類翻譯時, 會先用眼睛掃過一遍, 然後會挑出幾個重點字來確認語義的過程(圖2). 果然有了注意力機制加持後威力大增. Google宣稱, 在「英—法」, 「英—中」, 「英—西」等多個語對中, 錯誤率跟之前的統計機器翻譯系統相比降低了60%.
神經網路雖然可以根據現有的平行語料學習, 理解句中細微的語言特徵, 但是它並非完美無缺, 最大的問題來自於需要大量的語料以及它如黑盒子般的難以理解. 也就是說, 就算出了錯也無從改起, 只能夠供應更多的正確語料來讓「深度學習」改正. 也因此同樣一個句型, 卻可以有截然不同的翻譯結果.
2018年2月, 微軟(Microsoft)讓機器語言理解超越人類後馬上又有新舉措. 3月14日, 微軟亞洲研究院與雷德蒙研究院的研究人員宣布, 其研發的機器翻譯系統在通用新聞報導測試集Newstest2017的中英翻譯測試集上, 達到了可與人工翻譯媲美的水平. 這自然是神經網路機器翻譯的一大勝利, 當然在架構上也有了不少創新, 其中最值得注意的是加入了對偶學習(Dual Learning)以及推敲網路(Deliberation Networks).
對偶學習要解決平行語料有限的問題, 一般來說深度學習必須同時要提供給機器答案, 這樣機器才能夠根據它的翻譯結果與答案間的差異持續修正改進. 至於推敲網路也是模仿人類翻譯的過程, 通常人工翻譯會先做一次粗略的翻譯, 然後再將內容調整為精確的二次翻譯結果, 其實各位可以發現不管再聰明的神經網路, 最終仍要參考地表上最聰明的生物, 也就是身為人類的我們.
語言無法脫離使用情境
機器翻譯的發展並不意味著未來翻譯界人士將會沒有飯吃了. 可以注意到的是, 微軟發表會曾強調「通用新聞報導測試集Newstest2017」的「中英翻譯測試集」上, 數據集表現好未必能與通用性划上等號, 這也就可以說明為何騰訊翻譯君明明平常口碑不錯, 但是為何在博鼇即時口譯卻表現失准.
即時口譯可說是翻譯任務的頂點, 除了要有正確聽力理解原句, 還要在有限時間內轉換為其他語言. 而且別忘了講者不會給翻譯任何等待的時間, 所以等於語音識別與機器翻譯必須同步處理, 再加上現場雜音, 講者的表達方式, 語氣詞感歎詞等等幹擾因素, 都有可能會造成機器的誤判.
就我看來, 騰訊翻譯君, 可被指責的點可能只是不夠用功, 沒有把關鍵的專有名詞錄入, 這才會發生「一條公路和一條腰帶」這種「經典錯誤」.
從圖3也可以看到一個有趣的差異, 為何西方機器翻譯錯得離譜, 但是本國的機器翻譯卻幾乎都能掌握原意? 這是因為語言不能脫離人類的使用場景而存在. 即我們語文學習中常強調的上下文(Context), 這來自於我們過去的文化, 過去共有的記憶所構成的. 沒讀過唐詩的Google自然無法理解這句詩的精髓. 語言會是人工智慧時代人類最後的壁壘, 因為語言會因人類的使用不斷地發生變化, 這是機器很難完美替代的.
隨著技術進步, 終有一天, 機器翻譯會從「堪用」變成「有用」, 再進化至「好用」. 但如同我一直以來的論點, 機器不會搶了人類的工作, 能讓人類失業的其實只有我們自己. 如何善用人工智慧成為自己的工具, 把自己從無聊繁瑣的工作中抽身, 這才是面對未來的正確姿勢.