第11章で説明した「聖書旧約聖書創世記」、大洪水が退いた後、この人間世界はノアの息子たちは、人間が協力し始めたときに、同じ言語を話し、バベルのバベルの塔と呼ばれるビルドタワー神は世界中の人間が別の言語を持つようになった、人類はもはや団結協力してみましょうしないようにします。動きは、神を警戒。バベルは、言語の違いも最大の人間のコミュニケーションになったときの計画は、失敗に終わった作られました障害物が。おそらく血はまだバベルの塔を再建の夢にしたいので、翻訳が進化する中で歴史の年の過去数千人の上に人の文化的なプロジェクトの焦点となっています。
人類史上初めて、196年に作られたロゼッタストーン(Rosetta Stone)によってクロスランゲージパラレルコーパスが作成されました。古代エジプトの言語、古代ギリシア語、および地方の口語の文章は、古代エジプト王のプトレマイオスの彫刻を記録するために使用されました。これはまた、翻訳の大きなマイルストーンです。
ルールベースの機械翻訳
ソース機械翻訳については、戻って1949年にさかのぼることができ、情報理論の研究者ウォーレン・ウィーブは、正式に機械翻訳の概念を提案した。5年後、つまり、1954年に、IBMは、ジョージタウン大学と共同で、世界初の機械翻訳を発表しました。 IBM-701、それは実際には、法律規則の6つの規定のほか、250個の単語のみ構築されている偉大な体を持っているのに。英語にロシア語を翻訳することができます。しかし、そうであっても、これはまだ主要な画期的な技術であります人間が考え始めたとき、私たちはすぐに言語の壁を破ることができるはずです。
1964年、アメリカ科学アカデミー(American Academy of Sciences)は、自動言語処理諮問委員会(ALPAC)を設立し、2年後に委員会に出席した報告書では、機械翻訳は投資を続ける価値がないと考えられています。なぜならこの報告書は、米国が今後10年間に機械翻訳の研究をほぼ完全に停止させたためです。
IBMの最初の翻訳機の誕生から1980年代にかけて、当時の主流技術はルールベースの機械翻訳でしたが、後で辞書を使って単語を直接翻訳する方法もありました。しかし、正直言って、結果は非常にイライラしていることが判明しました。それは馬鹿に見えます。
言語は非常に複雑であいまいなシステムであるため、なぜ言葉の曖昧さから、レトリックのすべての種類、全て不可能網羅ルールに、?言語の規則を適用することはできません。しかし、興味深いことに、最近の新興企業の多くは、自然言語に従事している会社は、まだ中国のセマンティクスを解決するために徹底的なルールを使用しようとするが、この考え方は間違いなく失敗に終わっただろう。
私は、規則が実現できない理由を説明する例を挙げます.2つの言語による翻訳の複雑さは言及しません。中国の観点からは、速達の概念は速いです。何種類の教えが考えられますか? 10種類、100種類?これまでに行った自然言語の統計によると、合計で3,600種類の教えがあり、この数は時間とともに増加するはずです。複雑なルールのシステムでは、翻訳を使用すると、規則の量が驚くほどの天文学的数字になることが懸念されます。したがって、ルールベースの機械翻訳の考え方は昨日の黄色の花になります。
インスタンスベースの機械翻訳
全世界が機械翻訳の低段階に陥っている一方で、機械翻訳に強く執着する国があります。日本は英語能力が低く、機械翻訳に対する厳しい要求があります。
京都大学教授長尾真がベース機械翻訳を提案し、我々は、我々は正確に文と一致していなくても顔には、文章の十分な数を維持している限り、最初から機械を停止し、翻訳したいですまた、文章と比較することができ、翻訳は限り言葉の交換が可能と同じではありません。もちろん、これは、それが何の問題が発生することはありませんどのように多くの巧妙なルールベース機械翻訳よりもナイーブではありません。しかし、長い前に、人類はバベルの塔を再構築したいと考えています再び夜明けを見ているようだ。
統計機械翻訳
爆発し、統計的機械翻訳のブームやIBMは、1993年に発行した「機械翻訳の数学的理論」の論文に統計モデルが「IBMモデル1」と呼ばれる、言葉に5台で構成されて提案された「5 IBMモデル。」
アイデア統計モデルは確率の問題として翻訳されています。基本的には対訳コーパスを使用する必要があり、その後、文字通りの統計。マシンは、英語の「知識」とは何であるかを知らなかったが、コーパス統計のほとんどの後、あなたは見つけるでしょう。例えば、ものの知識を持つ文章があれば、対応する英語の例文に「知識」という単語が表示され、辞書や文法の規則が手動で維持されなくても、機械は単語の意味を理解することができます。
この概念は、最も初期のウォーレン織りは、同様の概念を提案したが、十分な時間と対訳コーパスがない弱すぎると、限られた容量の計算だったので、何の実装が存在しないので、新しいものではない。現代の統計的機械翻訳からここで、「現代のロゼッタストーン」を意味見つけるために、国連決議や発表は、個々の加盟国の言語バージョンがありますので、?実際には、最も重要なソースは、国連ですが、それ以外は、あなた自身の対訳コーパスへを作りたいです今では、この驚くべき高を知るために費用がかかりますかの点で、人間の翻訳のコスト。
過去10年間、誰もが統計的機械翻訳に基づいたGoogleの翻訳に精通していましたが、これを聞いて、統計的翻訳モデルはタワーの大きな原因を達成できません。 「有用」ではなく「有用」の程度。
ニューラルネットワークの機械翻訳
2014年までに、機械翻訳は歴史の中で最も革命的な変化、「深い学習」を導いたのです!
実際、ニューラルネットワークの発明は80年以上も前から存在していますが、Geoffrey Hinton(3大神の深い研究)が2006年のニューラルネットワーク最適化の致命的な欠点を改善して以来、深い学習が続けられています。 2015年に初めて人間がイメージを認識し、2016年にアルファ・ゴーは世界のチェス王を倒し、2017年には人間のステレオグラフィを上回り、2018年にはアルファ・ゴー、機械の英語の読み方は、人間をはるかに超えています。もちろん、この超肥料の深い知識のおかげで、機械翻訳の分野も盛んです。
ヨシュア・ベンジオ2014紙で3つの神々の深さの調査では、最初に機械翻訳のための技術を学ぶの深さの基本的なアーキテクチャを確立しました。マシンは自動的に文章の間でキャプチャできるように、彼は主に、リカレントニューラルネットワーク系列(RNN)に基づいています単語の特徴、その後、自動的にこの記事1、Googleの宝物。他の言語の翻訳に書かれた。非常に迅速に、正式に2016年に発表されたGoogleのは、Googleでの十分な神の祝福の下に火薬の供給だけでなく、大規模なすべての統計的機械翻訳は棚卸しではなく、ニューラルネットワーク機械翻訳は現代機械翻訳の絶対的な主流となった。
実際、注意の仕組みは、人間の翻訳をシミュレートする際に目を逸らし、次に意味論を確認するためにいくつかのキーワードを選ぶことです。 Googleは、英語、フランス語、英語、中国語、英語の各言語で、エラー率が変化していると主張しています(図2)。統計的機械翻訳システムは60%削減されています。
ニューラルネットワークは、既存の並列コーパスから学び、文の微妙な言語的特徴を理解することはできるが、完璧ではない。最大の問題は、必要なデータが大量にあり、ブラックボックスとして理解できないことから生じる。間違いを犯す方法はありませんが、より正確なコーパスを提供して「深い学習」を修正するだけです。したがって、同じ文章パターンは非常に異なる翻訳結果を持つことがあります。
2018年2月には、マイクロソフト(Microsoftは)人間を超えた新たな取り組みの直後に理解される機械語を確認する必要があります。3月14日、マイクロソフトリサーチアジア、レドモンド研究所の研究者が発表した共通の機械翻訳システムの研究開発Newstest2017設定されたテストの英訳に設定されたテストのニュース、人間翻訳と同等のレベルに達することができる。当然、このニューラルネットワークは偉大な勝利の機械翻訳である、もちろん、アーキテクチャの革新をたくさん持っている、の最も顕著なそれは二重の学習(デュアル学習)と精査ネットワーク(審議・ネットワーク)を含めることです。
限られた対訳コーパスの問題を解決するためのデュアル学習は、一般的には、学習の深さは、機械の答えに提供されなければならないので、マシンはその翻訳と修正の回答との差に基づいてのことができるようになります改善を持続。精査ネットワーク用としても、人間の翻訳の過程を模倣します通常、人間の翻訳は、最初のラフな翻訳を行い、その後、第2の翻訳の正確な内容を調整し、実際には、あなたはそれに関係なく、インテリジェントなニューラルネットワークを見つけないかもしれない、まだ体である、最も知的な生き物の基準面になってしまいますでしょう人類のために。
文脈から言語を使用することはできません
機械翻訳の開発は、それは、Microsoftのプレゼンテーションは、「英語翻訳テストセット、」データセットの「ユニバーサルテストセットNewstest2017のニュースレポート」を強調したことに留意されたい。翻訳専門職の未来は食べるために食べ物もないことを意味するものではありません優れたパフォーマンスは普遍性と同じではないかもしれません。なぜならTencentの翻訳者Jun Mingmingは良い評判を持っていますが、なぜBoaoのリアルタイム解釈が不正確なのかを説明することができます。
翻訳通訳を言うことができるリアルタイムタスクの集大成である、我々は原文の公聴会の正しい理解するだけでなく、他の言語のための限られた時間のための変換を持っている必要があります。そして、翻訳、音声認識とその均等のを待つために任意の時間を与えることはありませんスピーカーを忘れないでください機械翻訳の同期、プラスオンサイトノイズしなければならない、表現のスピーカーは、ワード間投詞ので、交絡因子のトーンは、機械の正義の流産につながる可能性があります。
私の見解で、6月テンセントの翻訳では、ちょうど十分に懸命に働いていないことがポイントと非難することができ、我々は固有名詞「高速道路やベルト」が起こるだろう、キー入力、入れませんでした「古典的な間違いを。」
図3からも見ることができる興味深い違いで、なぜ西は紛れも間違った機械翻訳、機械翻訳、しかし、国が意図を習得することはほぼできているでしたか?人間の言語が使用シナリオが存在して離婚することはできませんので、それはある。我々は、多くの場合、言語を学ぶこと私たちの過去の文化から来ているコンテキスト(文脈)に重点を置いて、過去の思い出提起がある。唐は、Googleが自然にこの詩の本質を理解することはできません読んでいない。言葉の壁は、ヒト人工知能の最後の時代になり、なぜなら人間の使用のために言語は絶えず変化するでしょう。これはマシンの非常に難しい代替物です。
ある日、技術の進歩により、機械翻訳は「有用」から「有用」に変化し、その後「有用」に変化します。しかし、私が常に主張してきたように、機械は人々の仕事を奪うことはありません。人類が失業しているのは自分だけであり、人工知能をいかに活用して自分の道具にして、退屈な作業から身を守るか、これは将来の正しい姿勢です。