Новости

История развития интерпретаторов ИИ

На Форуме Боао для Азии в 2018 году, помимо основной повестки дня, самым ярким моментом стало введение искусственного интеллекта для разговорной речи в режиме реального времени на собрании в первый раз. Однако искусственный интеллект не появился в оригинальной «оперативной интерпретации в режиме реального времени». Перед лицом угрозы неминуемой безработицы, наоборот, результат перевода серьезных ошибок, наоборот, облегчил переводчиков в режиме реального времени. Кажется, что эту линию можно долгое время есть.

В главе 11 Библии Ветхий Завет, Бытие, после Великого Потопа, отступили, люди этого мира были потомками Ноя и говорили на одном языке. В то время человечество начало сотрудничать и строить башню под названием Вавилон. Башня Башни. Этот шаг предупредил Бога, поэтому Бог позволил людям в мире начать иметь разные языки. С тех пор люди не смогли работать вместе. План строительства Небесной башни закончился неудачей, а языковые различия стали крупнейшими Препятствия. Возможно, в крови еще есть мечта о восстановлении Вавилонской башни, поэтому перевод стал ключевым культурным проектом для непрерывной эволюции человечества за последние тысячи лет.

Лингвистический барьер не так легко сломать. В частности, необходимо понять одну и ту же концепцию на разных языках. Впервые в истории человечества параллельный параллельный корпус создается Розеттой Стоун в 196 году до нашей эры. Древнегипетский язык, древнегреческий и местные популярные персонажи были использованы для записи выгравированного сценария короля Птолемея из древнего египетского короля. Это также важная веха в переводе.

Механический перевод на основе правил

Что касается происхождения машинного перевода, который датируется 1949 годом, исследователь теории информации Уоррен Уив официально предложил концепцию машинного перевода. Пять лет спустя, в 1954 году, IBM и Джорджтаунский университет в Соединенных Штатах объявили о первой в мире машине для перевода. IBM-701. Он смог перевести русский язык на английский, не говоря уже о том, что у него было огромное тело. На самом деле у него было всего шесть правил грамматики и 250 слов. Но даже в этом случае это был серьезный технологический прорыв. В то время люди начали ощущать, что они могут быстро сломать стену языка.

Возможно, что Бог заметил что-то другое и вылил ведро с холодной водой по плану реконструкции человека Вавилонской башни. В 1964 году Американская академия наук учредила Консультативный комитет по автоматической обработке текстов (ALPAC). Два года спустя в Комитете В представленном отчете считается, что машинный перевод не стоит продолжать инвестировать, потому что этот отчет заставил Соединенные Штаты почти полностью прекратить изучение машинного перевода в течение следующих десяти лет.

С момента рождения первой переводной машины IBM до 1980-х годов технологическим мейнстримом в то время был машинный перевод на основе правил. Наиболее распространенным методом является прямое перевод слов в соответствии со словарем, хотя некоторые люди позже предложили добавить синтаксические правила для их исправления. Но, честно говоря, результаты оказались очень расстраивающими, потому что это выглядит глупо. Поэтому к 1980-м годам такая практика исчезла.

Почему языки не могут применять правила? Поскольку языки являются чрезвычайно сложными и неопределенными системами, от двусмысленности слова до риторики, невозможно исчерпать все правила. Но интересно, что многие последние нововведения на естественном языке Компания, все еще пытающаяся решить китайскую семантику с исчерпывающими правилами, но эта идея, безусловно, закончится неудачей.

Я приведу пример, чтобы проиллюстрировать, почему правила не осуществимы. Не упоминайте сложность перевода на двух языках. С китайской точки зрения концепция экспресс-доставки выполняется быстро. Сколько видов учения вы можете придумать? 10 видов или 100 видов? Согласно статистике естественного языка, которую мы сделали раньше, в общей сложности может насчитываться 3600 видов учений, и это число должно увеличиваться с течением времени. Предложение с такой простой концепцией может быть таким Для сложной системы правил, если вы используете переводы, я боюсь, что количество правил будет удивительным астрономическим числом. Поэтому идея машинного перевода на основе правил станет желтым цветком вчера.

Механический перевод на основе экземпляров

В то время как весь мир попал в низкую фазу машинного перевода, есть страна, которая имеет сильные навязчивые идеи для машинного перевода. Это Япония. Японцы плохо владеют английским языком и поэтому имеют сильный жесткий спрос на машинный перевод.

Профессор Нагао Шинрецу из Киотского университета в Японии предложил примерный машинный перевод, т. Е. Перестать думать о том, чтобы позволить машинам переводить с нуля. Нам нужно только хранить достаточное количество примеров. Даже если мы сталкиваемся с предложениями, которые не идеально подходят, мы Вы также можете сравнить примеры предложений, просто заменив перевод разных слов. Такое наивное мышление, конечно, не намного лучше, чем машинный перевод на основе правил, поэтому он не вызвал волны. Но скоро надежда на реконструкцию Вавилонской башни Кажется, снова увидеть рассвет.

Статистический машинный перевод

Взорвана статистический бум машинного перевода или IBM, в «Машинный перевод математическая теория» ценных бумаг, выпущенных в 1993 году предложена статистическая модель состоит из пяти единиц в слове, называется «IBM Model 1» до «5 IBM модель.»

Идея статистической модели состоит в том, чтобы рассматривать перевод как проблему с вероятностью. В принципе, необходимо использовать параллельный корпус, а затем выполнять статистику поэтапно. Например, хотя машина не знает, что такое «знание» на английском языке, оно будет найдено после большинства статистических данных. пока есть знание о предложении появляется, соответствующие английские фразы будут «знание» появляется слово. в этом случае, даже без искусственного поддержания словарей и грамматических правил, но и делают машины понимают значение этого слова.

Эта концепция не нова, потому что Уоррен Уив впервые предложил аналогичную концепцию, но тогда не было достаточно параллельного корпуса, и способность ограничивать калькулятор в то время была слишком слабой и, следовательно, не претворялась в жизнь. Современный статистический машинный перевод из Где мы можем найти «современный Розеттский камень»? Основным источником является Организация Объединенных Наций. Поскольку резолюции и объявления Организации Объединенных Наций будут в языковых версиях различных стран-членов, но в дополнение к этому мы должны сами производить параллельный корпус. Теперь стоимость человеческого перевода переводится, зная, что эта стоимость поразительно высока.

В последнее десятилетие, мы знакомы с переводами Google основаны на статистической машинного перевода, чтобы услышать, что все должно быть ясно, модель статистического перевода не достижения великого дела Бабеля в впечатлению каждого, машинный перевод останавливается только на «Деградация» вместо того, чтобы это степень «полезный» в.

Машинный перевод нейронные сети

К 2014 году, машинный перевод ввел в истории наиболее революционных перемен - «глубокое изучение» здесь!

Нейронные сети не новы. На самом деле изобретения нейронной сети существуют уже более 80 лет. Однако глубокое обучение продолжилось с тех пор, как Джеффри Хинтон (глубокое изучение трех великих богов) улучшил фатальные недостатки оптимизации нейронной сети в 2006 году. В нашей жизни часто появлялись различные чудесные результаты. В 2015 году машина впервые реализовала распознавание образов за пределами человечества, а в 2016 году Альфа-Гуй победил короля шахмат мира, а в 2017 году распознавание речи превзошло людей-стенографистов, а в 2018 году - Механизм понимания английского языка впервые выходит за рамки людей. Конечно, эта область машинного перевода также начала процветать из-за глубокого изучения этого супер удобрения.

Йошуа Бенджио из глубокого изучения Бога в газете 2014 года впервые заложил основную структуру технологии глубокого обучения для машинного перевода. Он в основном использует рекуррентную нейронную сеть с последовательностью (RNN), так что машина может автоматически захватывать предложения Функция слова, которая, в свою очередь, может быть автоматически переведена на результат перевода другого языка. В этой статье показано, что Google выиграл сокровище. Вскоре после этого Google предоставил достаточный порох и благословение Божьего, Google официально объявил в 2016 году, что Все переводы статистических машин были на полке, переводы нейронных сетевых машин стали абсолютным мейнстримом современного машинного перевода.

Самой большой особенностью машинного перевода нейронной сети Google является добавление внимания. На самом деле механизм внимания состоит в том, чтобы сначала прорисовывать глаза при имитации человеческого перевода, а затем выделить несколько ключевых слов, чтобы подтвердить семантику. Процесс (рисунок 2). Конечно же, с благословением механизма поддержки, сила значительно увеличилась. Google утверждает, что на англо-французском, английском-китайском и английском-западном языках частота ошибок изменилась. Система статистического машинного перевода сокращена на 60%.

Хотя нейронная сеть может учиться у существующего параллельного корпуса и понимать тонкие лингвистические особенности предложения, она не идеальна. Самая большая проблема возникает из-за большого объема данных и его непостижимости как черного ящика, т. Е. Невозможно совершить ошибки, но только для того, чтобы обеспечить более правильный корпус для исправления «глубокого обучения». Поэтому одна и та же модель предложения может иметь очень разные результаты перевода.

В феврале 2018 года Microsoft предприняла новые шаги, чтобы сделать понимание машинного языка выше человечности. 14 марта исследователи из Microsoft Research Asia и Исследовательского института Редмонда заявили, что их система машинного перевода R & D была Набор тестовых тестов для новостного теста Newstest2017 с китайско-английским переводом достиг уровня, сопоставимого с уровнем перевода человека. Это, естественно, большая победа машинного перевода нейронных сетей. Конечно, в архитектуре также много инноваций, из которых наиболее примечательны. Он объединяется с системами Dual Learning и Deliberation.

Двойное обучение должно решить проблему ограниченного параллельного корпуса. В общем, глубокое обучение должно быть обеспечено машине одновременно. Таким образом, машина может непрерывно модифицироваться и улучшаться в зависимости от разницы между результатом ее перевода и ответом. Что касается стимулирующей сети, это также процесс имитации человеческого перевода. Обычно переводчики-переводчики сначала выполняют грубый перевод, а затем корректируют контент на точный результат второго перевода. На самом деле вы можете обнаружить, что независимо от того, насколько умна нейронная сеть, вам все равно придется ссылаться на самое умное существо на поверхности. Для человечества мы.

Язык не может использоваться из контекста

Развитие машинного перевода не означает, что люди в индустрии переводов не будут иметь никакой пищи в будущем. Можно отметить, что публикация Microsoft подчеркнула «набор тестов для перевода на китайский язык на английском языке» в «Универсальный новостной тестовый комплект Newstest 2017». Хорошая производительность может не соответствовать универсальности, что также может объяснить, почему переводчик Tencent Jun Mingming имеет хорошую репутацию, но почему интерпретация в режиме реального времени в Боао была неточной.

Говорить, что интерпретация в режиме реального времени является кульминацией задачи перевода. Помимо правильного восприятия оригинального предложения, он должен быть преобразован на другие языки в течение ограниченного времени. И помните, что говорящий не даст времени для перевода, поэтому он эквивалентен распознаванию речи. Машинный перевод должен обрабатываться синхронно, вместе с шумом на месте, выражением говорящего, междометиями модальных слов и т. Д., Все из которых могут вызывать недоразумение машиной.

С моей точки зрения, перевод короля Tencent может быть обвинен в том, что может быть недостаточно работы, а ключевые собственные существительные не вводятся, что приведет к «классической ошибке» «шоссе и пояса».

Интересное различие также можно увидеть на рисунке 3. Почему западный машинный перевод неуместен, но машинный перевод в родной стране почти всегда находится под контролем? Это потому, что язык не может существовать без отхода от сценариев использования человеком. То есть мы часто изучаем китайский язык. Контекст, который исходит из нашей прошлой культуры, состоит из воспоминаний, которые были распространены в прошлом. Google, который не читал стихи Тан, естественно, не может понять суть этого стихотворения. Язык может быть последним человеческим барьером в эпоху искусственного интеллекта, потому что Языки будут постоянно меняться из-за использования людей. Это очень трудная замена для машин.

С развитием технологии, в один прекрасный день, машинный перевод будет меняться от «полезного» к «полезному», а затем развивается до «полезного». Но, как я всегда утверждал, машины не будут лишать людей своей работы. Только мы, люди, безработные. Как эффективно использовать искусственный интеллект, чтобы стать вашим собственным инструментом, и уйти от утомительной работы, это правильная осанка на будущее.

2016 GoodChinaBrand | ICP: 12011751 | China Exports