《圣经. 旧约. 创世纪》第11章记载, 在大洪水退去后, 这世界上的人类都是诺亚的子孙, 说同样的语言. 那时人类开始合作, 建造名为巴别塔的通天之塔. 这个举动惊动了神, 因此神让全世界的人类开始有了不同的语言, 从此人类再也无法齐心合作. 造通天塔的计划以失败告终, 语言差异也成为了人类沟通时最大的障碍. 也许是血液中仍有想要重建巴别塔的梦想, 因此翻译就成为人类在过去千百年历史不断演进的重点文化工程.
语言的隔阂并不是那么容易打破的, 尤其是要跨语言来理解同样的概念. 人类历史上第一次出现跨语言的平行语料, 是制作于公元前196年的罗赛塔石碑(Rosetta Stone), 上面同时使用了古埃及文, 古希腊文以及当地通俗文字, 来记载古埃及国王托勒密五世登基的诏书. 这也是翻译的重大里程碑.
基于规则的机器翻译
至于机器翻译的源头, 可以追溯至1949年, 信息论研究者Warren Weave正式提出了机器翻译的概念. 五年后, 也就是1954年, IBM与美国乔治敦大学合作公布了世界上第一台翻译机IBM-701. 它能够将俄语翻译为英文, 别看它有巨大的身躯, 事实上它里面只内建了6条文法规则, 以及250个单字. 但即使如此, 这仍是技术的重大突破, 那时人类开始觉得应该很快就能将语言的高墙打破.
可能是神察觉有异, 又对人类重建巴别塔的计划泼了一桶冷水. 1964年, 美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee, ALPAC). 两年后, 在委员会提出的报告中认为机器翻译不值得继续投入, 因为这份报告, 造成接下来的十来年中, 美国的机器翻译研究几乎完全停滞空白.
从IBM的第一台翻译机诞生到20世纪80年代, 那时的技术主流都是基于规则的机器翻译. 最常见的作法就是直接根据词典逐字翻译, 虽然后来也有人倡议加入句法规则来修正. 但是老实说, 翻出来的结果都很令人沮丧, 因为看起来蠢到极点. 因此, 到了80年代这样的作法就销声匿迹了.
为何语言没办法套用规则? 因为语言是极其复杂且模糊的系统, 从字的歧义到各种修辞, 根本不可能穷举出所有规则. 但有趣的是, 不少近期投身于自然语言的新创公司, 仍然企图用穷举规则来解决中文语义, 但这种想法铁定会是以失败告终的.
我在这举个例子来说明为何规则是不可行的. 先别提翻译在两个语言转换的复杂性, 光是从中文来说, 「快递送货很快」这样的概念你能想到多少种讲法? 10种? 还是100种? 在我们之前做过的自然语言统计数据来看, 一共可能会有3600种讲法, 而且这个数字应该还会随时间增加. 光一个概念如此简单的句子就能有那么复杂的规则体系, 若用到翻译恐怕规则量会是个惊人的天文数字, 因此基于规则的机器翻译思路就成为了昨日黄花.
基于实例的机器翻译
在全世界都陷入机器翻译低潮期, 却有一个国家对于机器翻译有着强大的执念, 那就是日本. 日本人的英文能力差举世皆知, 也因此对机器翻译有强烈的刚性需求.
日本京都大学的长尾真教授提出了基于实例的机器翻译, 也就是别再去想让机器从无到有来翻译, 我们只要存上足够多的例句, 即使遇到不完全匹配的句子, 我们也可以比对例句, 只要替换不一样的词的翻译就可以. 这种天真的想法当然没有比基于规则的机器翻译高明多少, 所以并未引起风潮. 但是没多久, 人类重建巴别塔的希望似乎又重见曙光.
基于统计的机器翻译
引爆统计机器翻译热潮的还是IBM, 在1993年发布的《机器翻译的数学理论》论文中提出了由五种以词为单位的统计模型, 称为「IBM模型1」到「IBM模型5 」.
统计模型的思路是把翻译当成机率问题. 原则上是需要利用平行语料, 然后逐字进行统计. 例如, 机器虽然不知道「知识」的英文是什么, 但是在大多数的语料统计后, 会发现只要有知识出现的句子, 对应的英文例句就会出现「Knowledge」这个字. 如此一来, 即使不用人工维护词典与文法规则, 也能让机器理解单词的意思.
这个概念并不新, 因为最早Warren Weave就提出过类似的概念, 只不过那时并没有足够的平行语料以及限于当时计算器的能力太弱, 因此没有付诸实行. 现代的统计机器翻译要从哪里去找来「现代的罗赛塔石碑」呢? 最主要的来源其实是联合国, 因为联合国的决议以及公告都会有各个会员国的语言版本, 但除此之外, 要自己制作平行语料, 以现在人工翻译的成本换算一下就会知道这成本高到惊人.
在过去十来年, 大家所熟悉的Google翻译都是基于统计机器翻译. 听到这, 应该大家就清楚统计翻译模型是无法成就通天塔大业的. 在各位的印像中, 机器翻译还只停留在「堪用」而非是「有用」的程度.
神经网络机器翻译
到了2014年, 机器翻译迎来了史上最革命的改变——「深度学习」来了!
神经网络并不是新东西, 事实上神经网络发明已经距今80多年了, 但是自从2006年Geoffrey Hinton(深度学习三尊大神之首)改善了神经网络优化过于缓慢的致命缺点后, 深度学习就不断地伴随各种奇迹似的成果频繁出现在我们的生活中. 在2015年, 机器首次实现图像识别超越人类; 2016年, Alpha Go战胜世界棋王; 2017年, 语音识别超过人类速记员; 2018年, 机器英文阅读理解首次超越人类. 当然机器翻译这个领域也因为有了深度学习这个超级肥料而开始枝繁叶茂.
深度学习三大神中的Yoshua Bengio在2014年的论文中, 首次奠定了深度学习技术用于机器翻译的基本架构. 他主要是使用基于序列的递归神经网络(RNN), 让机器可以自动捕捉句子间的单词特征, 进而能够自动书写为另一种语言的翻译结果. 此文一出, Google如获至宝. 很快地, 在Google供应充足火药以及大神的加持之下, Google于2016年正式宣布将所有统计机器翻译下架, 神经网络机器翻译上位, 成为现代机器翻译的绝对主流.
Google的神经网络机器翻译最大的特色是加入了注意力机制(Attention), 注意力机制其实就是在仿真人类翻译时, 会先用眼睛扫过一遍, 然后会挑出几个重点字来确认语义的过程(图2). 果然有了注意力机制加持后威力大增. Google宣称, 在「英—法」, 「英—中」, 「英—西」等多个语对中, 错误率跟之前的统计机器翻译系统相比降低了60%.
神经网络虽然可以根据现有的平行语料学习, 理解句中细微的语言特征, 但是它并非完美无缺, 最大的问题来自于需要大量的语料以及它如黑盒子般的难以理解. 也就是说, 就算出了错也无从改起, 只能够供应更多的正确语料来让「深度学习」改正. 也因此同样一个句型, 却可以有截然不同的翻译结果.
2018年2月, 微软(Microsoft)让机器语言理解超越人类后马上又有新举措. 3月14日, 微软亚洲研究院与雷德蒙研究院的研究人员宣布, 其研发的机器翻译系统在通用新闻报导测试集Newstest2017的中英翻译测试集上, 达到了可与人工翻译媲美的水平. 这自然是神经网络机器翻译的一大胜利, 当然在架构上也有了不少创新, 其中最值得注意的是加入了对偶学习(Dual Learning)以及推敲网络(Deliberation Networks).
对偶学习要解决平行语料有限的问题, 一般来说深度学习必须同时要提供给机器答案, 这样机器才能够根据它的翻译结果与答案间的差异持续修正改进. 至于推敲网络也是模仿人类翻译的过程, 通常人工翻译会先做一次粗略的翻译, 然后再将内容调整为精确的二次翻译结果, 其实各位可以发现不管再聪明的神经网络, 最终仍要参考地表上最聪明的生物, 也就是身为人类的我们.
语言无法脱离使用情境
机器翻译的发展并不意味着未来翻译界人士将会没有饭吃了. 可以注意到的是, 微软发表会曾强调「通用新闻报导测试集Newstest2017」的「中英翻译测试集」上, 数据集表现好未必能与通用性划上等号, 这也就可以说明为何腾讯翻译君明明平常口碑不错, 但是为何在博鳌实时口译却表现失准.
实时口译可说是翻译任务的顶点, 除了要有正确听力理解原句, 还要在有限时间内转换为其他语言. 而且别忘了讲者不会给翻译任何等待的时间, 所以等于语音识别与机器翻译必须同步处理, 再加上现场杂音, 讲者的表达方式, 语气词感叹词等等干扰因素, 都有可能会造成机器的误判.
就我看来, 腾讯翻译君, 可被指责的点可能只是不够用功, 没有把关键的专有名词录入, 这才会发生「一条公路和一条腰带」这种「经典错误」.
从图3也可以看到一个有趣的差异, 为何西方机器翻译错得离谱, 但是本国的机器翻译却几乎都能掌握原意? 这是因为语言不能脱离人类的使用场景而存在. 即我们语文学习中常强调的上下文(Context), 这来自于我们过去的文化, 过去共有的记忆所构成的. 没读过唐诗的Google自然无法理解这句诗的精髓. 语言会是人工智能时代人类最后的壁垒, 因为语言会因人类的使用不断地发生变化, 这是机器很难完美替代的.
随着技术进步, 终有一天, 机器翻译会从「堪用」变成「有用」, 再进化至「好用」. 但如同我一直以来的论点, 机器不会抢了人类的工作, 能让人类失业的其实只有我们自己. 如何善用人工智能成为自己的工具, 把自己从无聊繁琐的工作中抽身, 这才是面对未来的正确姿势.