"La Génesis de la Biblia Antiguo" que se describe en el capítulo 11, después de la gran inundación retrocedió, este mundo humano son los hijos de Noé, hablar el mismo idioma cuando los seres humanos comenzaron a cooperar, construir llamada Babel Torre de Babel torre. alarmado el movimiento del Dios, por lo que Dios permitió que los seres humanos en todo el mundo comenzó a tener un idioma diferente, la raza humana ya no era la cooperación unida. Babel hizo planes fracasaron, cuando las diferencias de idiomas también se convierten en el más grande de la comunicación humana Obstáculos. Tal vez todavía hay un sueño en la sangre para reconstruir la Torre de Babel. Por lo tanto, la traducción se ha convertido en un proyecto cultural clave para la evolución continua de la humanidad en los últimos mil años.
La barrera del idioma no es tan fácil de romper, sobre todo a distintos idiomas para entender los mismos conceptos. Entre lenguajes paralelos primera vez en la historia humana corpus, que se produce en el año 196 antes de Cristo, la piedra de Rosetta (Rosetta Stone) La antigua lengua egipcia, el griego antiguo y los textos coloquiales locales se usaron para registrar las escrituras grabadas del rey Ptolomeo del antiguo rey egipcio. Este es también un hito importante en la traducción.
Traducción automática basada en reglas
En cuanto a la traducción máquina de origen, se remonta a 1949, investigador de teoría de la información Warren Weave propuso formalmente el concepto de la traducción automática. Cinco años más tarde, es decir, en 1954, de IBM, en colaboración con la Universidad de Georgetown anunció por primera vez la traducción automática del mundo IBM-701. Pudo traducir el ruso al inglés, sin mencionar que tenía un cuerpo enorme. En realidad, solo tenía seis reglas de gramática y 250 palabras integradas. Pero aun así, seguía siendo un gran avance tecnológico. En ese momento, los humanos comenzaron a sentir que deberían ser capaces de romper rápidamente el muro del lenguaje.
Era posible que Dios hubiera notado algo diferente y hubiera vertido un balde de agua fría en el plan de reconstrucción humana de la Torre de Babel. En 1964, la Academia Estadounidense de Ciencias estableció el Comité Asesor de Procesamiento Automático del Lenguaje (ALPAC). Dos años después, en el Comité En el informe presentado, se considera que no vale la pena seguir invirtiendo en la traducción automática, ya que este informe provocó que Estados Unidos detuviera casi por completo el estudio de traducción automática en los próximos diez años.
Desde el nacimiento de la primera máquina de traducción de IBM hasta la década de 1980, la tecnología principal en ese momento era la traducción automática basada en reglas. El método más común es traducir directamente las palabras según el diccionario, aunque algunas personas propusieron agregar reglas de sintaxis para corregirlas. Pero para ser honesto, los resultados resultaron ser muy frustrantes, porque parece estúpido. Por lo tanto, en los años ochenta esas prácticas han desaparecido.
¿Por qué no pueden los idiomas aplicar reglas? Debido a que los lenguajes son sistemas extremadamente complejos y vagos, desde la ambigüedad de las palabras a la retórica, es imposible agotar todas las reglas. Pero, curiosamente, muchas innovaciones recientes en el lenguaje natural La compañía, aún tratando de resolver la semántica china con reglas exhaustivas, pero esta idea definitivamente terminará en fracaso.
Daré un ejemplo para ilustrar por qué las reglas no son factibles. No mencione la complejidad de la traducción en dos idiomas. Desde la perspectiva china, el concepto de entrega urgente es rápido. ¿Cuántas clases de enseñanzas puede pensar? 10 tipos o 100 tipos Según las estadísticas del lenguaje natural que hemos hecho antes, puede haber 3.600 clases de enseñanzas en total, y este número debería aumentar con el tiempo. Una oración con un concepto tan simple puede ser tan Para un sistema complejo de reglas, si usa traducciones, me temo que la cantidad de reglas será un número astronómico asombroso. Por lo tanto, la idea de traducción automática basada en reglas se convertirá en una flor amarilla ayer.
Traducción automática basada en instancias
Mientras que el mundo entero ha caído en la fase baja de la traducción automática, hay un país que tiene fuertes obsesiones por la traducción automática: Japón. Los japoneses tienen un inglés deficiente y, por lo tanto, tienen una fuerte demanda rígida de traducción automática.
El profesor Nagao Shinretsu de la Universidad de Kyoto en Japón propuso una traducción automática basada en ejemplos, es decir, dejar de pensar en dejar que las máquinas traduzcan desde cero. Solo tenemos que almacenar suficientes oraciones de ejemplo. Incluso si encontramos oraciones que no coinciden perfectamente, También puede comparar oraciones de ejemplo simplemente reemplazando la traducción de diferentes palabras. Este tipo de pensamiento ingenuo ciertamente no es mucho mejor que la traducción automática basada en reglas, por lo que no causó una ola. Pero pronto, la esperanza de la reconstrucción humana de la Torre de Babel Parece ver el alba otra vez.
Traducción automática estadística
Detonada auge de traducción automática estadística o IBM, en "Machine Translation matemática teoría" documento publicado en 1993 propuso un modelo estadístico consta de cinco unidades en una palabra, llamado "IBM Modelo 1" a "5 modelo de IBM."
La idea del modelo estadístico es tratar la traducción como un problema de probabilidad. En principio, es necesario usar un corpus paralelo y luego realizar estadísticas palabra por palabra. Por ejemplo, aunque la máquina no sabe qué es el "conocimiento" en inglés, se encontrará después de la mayoría de las estadísticas del corpus. mientras se tenga conocimiento de la sentencia aparece, las oraciones en inglés correspondientes serán palabra "conocimiento" aparece. de esta manera, incluso sin mantenimiento artificial de diccionarios y reglas gramaticales, sino también hacer que las máquinas entender el significado de la palabra.
Este concepto no es nuevo, porque Warren Weave propuso por primera vez un concepto similar, pero luego no había suficiente corpus paralelo y la capacidad de limitar la calculadora en ese momento era demasiado débil y, por lo tanto, no se ponía en práctica. ¿Dónde podemos encontrar la "piedra Rosetta moderna"? La fuente principal son las Naciones Unidas, porque las resoluciones y los anuncios de las Naciones Unidas estarán en las versiones lingüísticas de varios países miembros, pero además de esto, debemos producir un corpus paralelo por nosotros mismos. Ahora el costo de la traducción humana se traduce en saber que este costo es asombrosamente alto.
En los últimos diez años, todo el mundo está familiarizado con la traducción de Google basada en la traducción automática estadística. Al escuchar esto, debe quedar claro que el modelo de traducción estadística no puede lograr la gran causa de la torre. En sus impresiones, la traducción automática solo permanece en El grado de "útil" en lugar de "útil".
Traducción automática de redes neuronales
Para 2014, la traducción automática marcó el comienzo del cambio más revolucionario de la historia: ¡el "aprendizaje profundo"!
Las redes neuronales no son nuevas, de hecho, las invenciones de redes neuronales han existido por más de 80 años. Sin embargo, el aprendizaje profundo ha continuado desde que Geoffrey Hinton (estudio profundo de los tres grandes dioses) mejoró las falencias fatales de la optimización de redes neuronales en 2006. Varios resultados milagrosos han aparecido con frecuencia en nuestras vidas. En 2015, la máquina por primera vez se dio cuenta del reconocimiento de la imagen más allá de la humanidad: en 2016, Alpha Go derrotó al rey mundial del ajedrez, en 2017 el reconocimiento de voz superó a taquígrafos humanos; La comprensión de lectura de la máquina en inglés va más allá de los humanos por primera vez. Por supuesto, esta área de traducción automática también ha comenzado a florecer debido al profundo aprendizaje de este súper fertilizante.
Yoshua Bengio estudio en profundidad de los tres dioses en el documento de 2014, por primera vez establecida la arquitectura básica de la profundidad de las tecnologías de aprendizaje para la traducción automática. Él se basa principalmente en recurrente secuencia de red neuronal (RNN), por lo que la máquina puede capturar de forma automática entre las oraciones función de la palabra, y luego por escrito automáticamente a otro de traducción de idiomas. Este artículo uno, Google tesoro. Muy rápidamente, el suministro adecuado de la pólvora bajo la bendición de Dios, así como grandes en Google, Google anunció oficialmente en 2016 Todas las traducciones automáticas estadísticas estaban fuera de la plataforma, las traducciones automáticas de redes neuronales se convirtieron en la corriente principal absoluta de la traducción automática moderna.
La característica más importante de la traducción automática de redes neuronales de Google es la adición de Atención. De hecho, el mecanismo de atención consiste en pasar primero por los ojos al simular la traducción humana, y luego seleccionar algunas palabras clave para confirmar la semántica. Proceso (figura 2). Efectivamente, con la bendición del mecanismo de atención, el poder ha aumentado enormemente. Google afirma que en los idiomas inglés-francés, inglés-chino e inglés-occidental, la tasa de error ha cambiado. El sistema estadístico de traducción automática se reduce en un 60%.
A pesar de que la red neuronal de acuerdo con el corpus paralelo existente puede aprender y comprender las características del lenguaje sutiles de oraciones, pero no es perfecto, el mayor problema viene del corpus, y se necesita una gran cantidad de negro similar a una caja tan difícil de entender. Es decir, incluso si ya que no hay manera de cambiar el mal, sólo podemos suministrar corpus más correcto para hacer "aprendizaje profundo" correcto. Por lo tanto, la misma frase, pero podemos tener traducción muy diferente.
En febrero de 2018, Microsoft realizó nuevos movimientos para hacer que el lenguaje de máquina fuera más allá de la humanidad. El 14 de marzo, investigadores del Microsoft Asia Research Institute y del Redmond Research Institute anunciaron que su sistema de traducción automática de I + D era El conjunto de pruebas de traducción Chino-Inglés de Newstest2017 ha alcanzado un nivel comparable al de la traducción humana. Naturalmente, esta es una gran victoria para la traducción automática de redes neuronales. Por supuesto, también hay muchas innovaciones en la arquitectura, de las cuales las más notables. Se combina con Redes Dual de Aprendizaje y Deliberación.
aprendizaje dual para resolver el problema del corpus paralelo limitado, en general, la profundidad del aprendizaje debe ser proporcionada a la máquina de respuestas, por lo que la máquina será capaz de basa en la diferencia entre sus traducciones y la respuesta corregida sostenida mejora. En cuanto a la red escrutinio también imitar el proceso de traducción humana por lo general la traducción humana va a hacer en primer lugar una traducción aproximada, y luego ajustar el contenido exacto de la segunda traducción, de hecho, es posible que no hay redes neuronales materia inteligente, todavía va a terminar en la superficie de referencia de las criaturas más inteligentes, que es el organismo Para la humanidad nosotros.
El lenguaje no puede usarse fuera de contexto
El desarrollo de la traducción automática no significa que el futuro de la profesión de traductor no será una comida para comer. Cabe señalar que la presentación de Microsoft hizo hincapié en la "prueba de establecer Newstest2017 informes universales noticias" de "equipo de prueba Traducción Inglés", el conjunto de datos buen rendimiento y versatilidad no ser capaz de dibujar en el signo igual, lo que también puede explicar por qué Tencent junio, obviamente, la traducción habitual era bueno, pero ¿por qué es inexacta en el rendimiento de Boao interpretación en tiempo real.
En tiempo real interpretación de traducción puede decirse es la culminación de la tarea, debemos tener una comprensión correcta de la vista de sentencia original, sino también la conversión de un tiempo limitado para otros idiomas. Y no olvidemos los altavoces no dará ningún tiempo para esperar a la traducción, reconocimiento de voz y tan iguales traducción automática debe estar sincronizada, además de en el lugar de ruido, expresiones altavoces, el tono de la palabra interjecciones y factores de confusión por lo que, es probable que resulte en aborto involuntario de la justicia de la máquina.
En mi punto de vista, la traducción junio Tencent, puede ser acusado de puntos no pueden trabajar lo suficiente, no hemos puesto los nombres propios de entrada clave, que será "una carretera y un cinturón de" pasar "error clásico."
También se puede ver una diferencia interesante en la figura 3. ¿Por qué la traducción automática occidental está mal ubicada, pero la traducción automática en el país de origen casi siempre está bajo control? Esto se debe a que el lenguaje no puede existir sin apartarse de los escenarios de uso humano. El contexto, que proviene de nuestra cultura pasada, consiste en recuerdos que eran comunes en el pasado. Google, que no ha leído la poesía Tang, naturalmente no puede entender la esencia de este poema. El lenguaje puede ser la última barrera humana en la era de la inteligencia artificial porque Los idiomas cambian constantemente debido al uso de humanos. Este es un sustituto muy difícil para las máquinas.
Con el avance de la tecnología, un día, la traducción automática pasará de ser "útil" a "útil" y luego evolucionará a "útil". Pero, como siempre he argumentado, las máquinas no privarán a las personas de su trabajo. Es solo nosotros mismos que los seres humanos están desempleados. Cómo hacer un buen uso de la inteligencia artificial para convertirse en su propia herramienta, y para retirarse del trabajo tedioso, esta es la postura correcta para el futuro.