« La Bible Ancien Testament Genèse » décrit au chapitre 11, après la grande inondation se sont retirées, ce monde humain sont les fils de Noé, parlent la même langue quand les humains ont commencé à coopérer, construire appelé Babel Tour de Babel tour. le mouvement alarmé Dieu, Dieu laisse les êtres humains partout dans le monde a commencé à avoir une autre langue, la race humaine ne fut plus la coopération unie. Babel a fait des plans soldées par un échec, lorsque les différences linguistiques deviennent aussi la plus grande communication humaine obstacle. peut-être le sang veut encore rêver de reconstruire la tour de Babel, de sorte que la traduction est devenue l'objet de projets culturels humains au cours des dernières milliers d'années d'histoire en constante évolution.
La barrière de la langue n'est pas si facile à briser, en particulier pour interlangage comprendre les mêmes concepts. Tout d'abord en parallèle interlangage corpus dans l'histoire humaine, est produite en 196 avant JC, la pierre de Rosette (Rosetta Stone) ci-dessus utilisant à la fois l'ancien égyptien, ancien caractère populaire grec et local, pour enregistrer l'ancien roi égyptien Ptolémée V monta l'édit du trône. c'est une étape importante dans la traduction.
Traduction automatique basée sur des règles
En ce qui concerne la traduction de la machine source, peut remonter à 1949, théorie de l'information chercheur Warren Weave a officiellement proposé le concept de la traduction automatique. Cinq ans plus tard, à savoir en 1954, IBM en collaboration avec l'Université de Georgetown a annoncé la première traduction automatique du monde IBM-701. il est capable de traduire russe en anglais, mais il a un grand corps, ce qui en fait, il ne se construit six dispositions des règles de droit, ainsi que 250 mots. mais tout de même, cela est encore une percée technologique majeure, À ce moment-là, les humains ont commencé à sentir qu'ils devraient être capables de briser rapidement le mur de la langue.
Il était possible que Dieu ait remarqué quelque chose de différent et versé un seau d'eau froide sur le plan de reconstruction humaine de la Tour de Babel.En 1964, l'Académie Américaine des Sciences créa le Comité Consultatif de Traitement Automatique des Langues (ALPAC). Dans le rapport présenté, on considère que la traduction automatique ne vaut pas la peine de continuer à investir, car ce rapport a conduit les États-Unis à arrêter presque complètement l'étude de traduction automatique au cours des dix prochaines années.
De la naissance de la première machine de traduction aux années 1980, le courant dominant de la technologie était la traduction automatique basée sur des règles, la méthode la plus courante étant de traduire directement les mots selon le dictionnaire. Mais pour être honnête, les résultats se sont révélés très frustrants, car ils ont l'air stupide et, par conséquent, dans les années 1980, de telles pratiques ont disparu.
Pourquoi les langues ne peuvent-elles pas appliquer les règles? Parce que les langues sont des systèmes extrêmement complexes et vagues, de l'ambiguïté des mots à la rhétorique, il est impossible d'épuiser toutes les règles. L'entreprise, essayant toujours de résoudre la sémantique chinoise avec des règles exhaustives, mais cette idée va certainement se terminer par un échec.
Je vais donner un exemple pour illustrer pourquoi les règles ne sont pas réalisables.N'oubliez pas la complexité de la traduction en deux langues.Seul du point de vue chinois, le concept de livraison express est rapide.Quel genre d'enseignements pouvez-vous penser? Selon les statistiques en langage naturel que nous avons faites auparavant, il peut y avoir 3 600 sortes d'enseignements au total, et ce nombre devrait augmenter avec le temps. Pour un système complexe de règles, si vous utilisez des traductions, je crains que le nombre de règles ne soit un nombre astronomique étonnant, donc l'idée de traduction automatique basée sur des règles deviendra une fleur jaune hier.
Traduction automatique basée sur une instance
Dans le monde de la traduction automatique dans la marée basse, il y a un pays pour la traduction automatique a une obsession forte, et que le Japon. Japonais pauvres anglais universellement connu, et donc de traduction automatique, il existe une forte demande pour la rigidité.
Le professeur Nagao Shinretsu de l'Université de Kyoto au Japon a proposé une traduction automatique basée sur un exemple, c'est-à-dire cesser de penser à la possibilité de laisser des machines à traduire de toutes pièces. Vous pouvez également comparer des exemples de phrases en remplaçant simplement la traduction de mots différents.Cette sorte de pensée naïve n'est certainement pas beaucoup mieux que la traduction automatique basée sur des règles, donc elle n'a pas provoqué de vague. Semble voir l'aube à nouveau.
Traduction automatique statistique
Détoné-boom statistique de traduction automatique ou IBM, dans la « théorie mathématique traduction automatique » papier émis a proposé en 1993 un modèle statistique se compose de cinq unités en un mot, appelé « modèle IBM 1 » à « 5 modèle IBM. »
Idées modèle statistique se traduit par une question de probabilités. En principe, est la nécessité d'utiliser le corpus parallèle, puis littéralement des statistiques. Par exemple, bien que la machine ne savait pas ce que la « connaissance » de l'anglais est, mais après la plupart des statistiques de corpus, vous trouverez tant qu'il y a connaissance de la phrase apparaît, les phrases en anglais seront mot « connaissance » apparaît. de cette façon, même sans entretien artificiel des dictionnaires et des règles de grammaire correspondantes, mais aussi faire des machines à comprendre le sens du mot.
Ce concept n'est pas nouveau, car Warren Weave a d'abord proposé un concept similaire, mais ensuite il n'y avait pas assez de corpus parallèle et la capacité de limiter la calculatrice à ce moment était trop faible et donc pas mise en pratique. où trouver « pierre de Rosette moderne » signifie? en fait, la source la plus importante est l'Organisation des Nations Unies, parce que les résolutions des Nations Unies et l'annonce auront des versions linguistiques des différents États membres, mais à part ça, vous voulez faire votre propre corpus parallèle Maintenant, le coût de la traduction humaine se traduit par savoir que ce coût est étonnamment élevé.
Dans la dernière décennie, nous connaissons les traductions Google sont basées sur la traduction automatique statistique d'apprendre que, tout le monde devrait être modèle clair de traduction statistique ne sont pas les réalisations de la grande cause de Babel dans l'impression de tout le monde, la traduction automatique s'arrêter à « dégradé » est plutôt le degré de « utile » dans.
Traduction automatique du réseau neuronal
Pour 2014, la traduction automatique a marqué le début de l'histoire du changement le plus révolutionnaire - « l'apprentissage en profondeur » ici!
Les réseaux neuronaux ne datent pas d'hier: les inventions de réseaux neuronaux existent depuis plus de 80 ans, mais l'apprentissage profond s'est poursuivi depuis que Geoffrey Hinton (étude approfondie des trois grands dieux) a amélioré les faiblesses fatales de l'optimisation des réseaux neuronaux en 2006. En 2015, la machine a réalisé pour la première fois la reconnaissance d'image au-delà de l'humanité, en 2016, Alpha Go a vaincu le roi des échecs mondiaux, en 2017, la reconnaissance vocale a dépassé les sténographes humains, en 2018, La compréhension de la lecture en anglais machine dépasse pour la première fois les humains Bien entendu, ce domaine de la traduction automatique a également commencé à prospérer grâce à l'apprentissage en profondeur de ce super engrais.
Yoshua Bengio de l'étude approfondie de Dieu dans l'article de 2014, a pour la première fois établi la structure de base de la technologie d'apprentissage en profondeur pour la traduction automatique, utilisant principalement un réseau de neurones récurrents (RNN) basé sur la séquence. Le mot fonctionnalité, qui à son tour peut être traduit automatiquement dans le résultat de la traduction d'une autre langue.Cet article montre que Google a remporté le trésor.Bientôt après, Google a fourni la poudre suffisante et la bénédiction de Dieu, Google a officiellement annoncé en 2016 que Toutes les traductions de machines statistiques étaient disponibles, les traductions de machines de réseau neuronal devenaient le courant dominant de la traduction automatique moderne.
La plus grande caractéristique de la traduction automatique de réseaux neuronaux de Google est l'ajout d'Attention, en effet, le mécanisme d'attention consiste à balayer d'abord les yeux en simulant la traduction humaine, puis à sélectionner quelques mots clés pour confirmer la sémantique. Processus (figure 2) Bien sûr, avec la bénédiction du mécanisme d'attention, le pouvoir a considérablement augmenté, Google affirme que dans les langues anglais-français, anglais-chinois et anglais-occidental, le taux d'erreur a changé. Le système de traduction automatique statistique est réduit de 60%.
Bien que le réseau de neurones selon le corpus parallèle existant peut apprendre et comprendre les caractéristiques linguistiques subtiles de phrases, mais il est pas parfait, le plus gros problème vient du corpus, et il faut beaucoup de noir boîte aussi difficile à comprendre. C'est, même si Il n'y a aucun moyen de faire des erreurs, mais seulement de fournir un corpus plus correct pour corriger "l'apprentissage en profondeur" Par conséquent, le même modèle de phrase peut avoir des résultats de traduction très différents.
En février 2018, Microsoft a pris de nouvelles mesures pour améliorer la compréhension du langage machine au-delà de l'humanité: le 14 mars, des chercheurs de Microsoft Research Asia et de l'institut de recherche Redmond ont annoncé que leur système de traduction automatique R & D L'ensemble de tests de traduction en anglais-chinois de Newstest2017 a atteint un niveau comparable à celui de la traduction humaine, ce qui constitue naturellement une grande victoire pour la traduction automatique des réseaux de neurones. Il est associé aux réseaux Dual Learning et Deliberation.
L'apprentissage dual pour résoudre le problème du corpus parallèle limité, en général, la profondeur de l'apprentissage doit être fournie aux réponses de la machine, la machine pourra basée sur la différence entre les traductions et la réponse corrigée soutenue amélioration. En ce qui concerne le réseau d'examen imiter aussi le processus de traduction humaine habituellement la traduction humaine fera d'abord une traduction approximative, puis ajuster le contenu précis de la deuxième traduction, en fait, vous pouvez constater que peu importe les réseaux de neurones intelligents, se termineront toujours sur la surface de référence des créatures les plus intelligentes, ce qui est le corps Pour l'humanité nous.
La langue ne peut pas être utilisée hors contexte
Le développement de la traduction automatique ne signifie pas que les traducteurs n'auront plus de nourriture à l'avenir, et la publication de Microsoft a mis l'accent sur le «test de traduction chinois-anglais» du «Universal News Report Test Set Newstest 2017». Une bonne performance peut ne pas être égale à l'universalité, ce qui peut aussi expliquer pourquoi le traducteur de Tencent, Jun Mingming, a une bonne réputation, mais pourquoi l'interprétation en temps réel de Boao a été inexacte.
interprétation de la traduction en temps réel peut dire est l'aboutissement de la tâche, nous devons avoir une compréhension correcte de l'audience de condamnation initiale, mais aussi la conversion pour un temps limité pour d'autres langues. Et ne pas oublier les haut-parleurs ne donnera pas tout le temps d'attendre la traduction, la reconnaissance vocale et ainsi égale La traduction automatique doit être traitée de manière synchrone, avec le bruit sur place, l'expression du locuteur, les interjections de mots modaux, etc., ce qui peut entraîner une erreur de jugement de la part de la machine.
À mon avis, Jun traduction Tencent, peut être accusé de points peut tout simplement pas travailler assez dur, on n'a pas mis les noms d'entrée clé appropriée, qui sera « une route et une ceinture » arriver « erreur classique. »
Peut également être vu de la figure 3 est une différence intéressante, pourquoi l'Occident était la traduction automatique aveuglante mal, la traduction automatique, mais le pays est presque en mesure de maîtriser l'intention? Il est parce que le langage humain ne peut pas être dissociée existe des scénarios d'utilisation. Ce que nous apprenons souvent la langue l'accent sur le contexte (contexte), qui vient de notre culture passée, il y a des souvenirs du passé POSÉES. Tang n'a pas lu le Google peut naturellement pas comprendre l'essence de ce poème. barrières linguistiques seraient la dernière ère de l'intelligence artificielle humaine, parce que Les langues changeront constamment en raison de l'utilisation de l'homme, ce qui est un substitut très difficile pour les machines.
Avec l'avancement de la technologie, un jour, la traduction automatique passera de «utile» à «utile», puis deviendra «utile». Mais, comme je l'ai toujours soutenu, les machines ne priveront pas les gens de leur travail. Ce n'est que nous-mêmes que les êtres humains sont au chômage: comment faire bon usage de l'intelligence artificielle pour devenir votre propre outil, et pour vous retirer du travail fastidieux, c'est la posture correcte pour l'avenir.