큰 홍수가 가라 앉으 후 인간이 협력하기 시작했을 때 11 장에 설명 된 "성경 구약 성경 창세기는"이 인간 세계는 같은 언어를 사용, 노아의 아들이다, 구축 바벨의 바벨탑이라고 하나님이 세상은 다른 언어를 가지고 시작 온통 인간을 할 수 있도록 타워. 이동은 하나님이, 경보, 인류는 더 이상 미국의 협력 없었다. 바벨은 언어의 차이도 최대 규모의 의사 소통이 될 때 계획은 실패로 끝났다 만든 장애물 : 바벨탑을 재건하려는 꿈이 아직 남아 있습니다. 따라서 번역은 지난 수천 년 동안 인류의 지속적인 진화를위한 주요 문화 프로젝트가되었습니다.
언어 장벽은 동일한 개념을 이해하는 것이 특히 교차 언어로 침입 때문에 용이하지 않다. 196 BC에서 생성 된 인간의 역사에 상호 병렬 언어 코퍼스 처음 로제 스톤 (로제 스톤) 프톨레마이오스 V가 왕위 칙령을 올라 고대 이집트 왕을 기록, 모두 고대 이집트, 고대 그리스와 지역의 인기 캐릭터를 사용하여 위.이 번역에서 중요한 이정표이다.
규칙 기반 기계 번역
1949 년으로 거슬러 올라간 기계 번역의 기원에 관해서, 정보 이론 연구원 워렌 위브 (Warren Weave)는 공식적으로 기계 번역의 개념을 제안했으며, 5 년 후인 1954 년 IBM과 조지 타운 대학은 세계 최초의 번역 기계를 발표했습니다. IBM-701. 러시아어를 영어로 번역 할 수 있었지만 실제로는 거대한 몸집을 가지고 있었지만 실제로는 6 개의 문법 규칙과 250 개의 단어가 내장되어있었습니다. 그렇지만 여전히 중요한 기술 발전이었습니다. 그 당시 인간은 언어의 벽을 빨리 깰 수 있어야한다고 생각하기 시작했습니다.
하나님이 차이가 아니라 인간에 바벨탑이 차가운 물 한 양동이를 부어 다시 계획을 인식 할 수있다. 1964 년, 과학 자문위원회의 국립 아카데미 언어의 자동 처리 (자동 언어 처리 자문위원회, ALPAC)을 설정합니다. 이년 후,위원회 보고서에 따르면 기계 번역은 앞으로 10 년 동안 기계 번역 연구를 거의 완전히 중단시키기 때문에 투자를 계속할 가치가없는 것으로 간주됩니다.
주류 기술은 규칙 기반 기계 번역 인 1980 년대에 IBM의 첫 번째 번역기에서 태어났다. 가장 일반적인 방법은 사전에 따라 직접 직역, 그것은 구문 규칙을 수정 주도권을 가입 후 이었더라 바보 극단적 보이는 있기 때문에 정직하게, 결과는 매우 실망 밝혀졌다. 따라서, 1980 년대에이 방법이 사라졌다.
언어가 규칙을 적용 할 수없는 이유는 무엇입니까? 언어는 단어 모호성에서 수사학에 이르기까지 매우 복잡하고 모호한 시스템이므로 모든 규칙을 다 사용하는 것은 불가능합니다. 그러나 흥미롭게도 자연 언어의 많은 혁신 회사는 철저한 규칙으로 중국 의미론을 해결하려고 여전히 노력하고 있지만이 아이디어는 확실히 실패로 끝날 것입니다.
왜 규칙이 실현 가능하지 않은지 설명하기위한 예제를 드리겠습니다 .2 개 국어로 번역의 복잡성을 언급하지 마십시오. 중국 관점에서 보면 신속 배송의 개념은 빠릅니다. 얼마나 많은 종류의 가르침을 생각할 수 있습니까? 10 종 또는 100 종? 이전에 해설 한 자연어 통계에 따르면 총 3600 종류의 교훈이있을 수 있으며 시간이 지남에 따라 증가 할 것입니다. 복잡한 규칙 체계의 경우, 번역을 사용하면 엄청난 천문학적 숫자가 될 것이므로 규칙 기반 기계 번역 아이디어는 어제 노란색 꽃이 될 것입니다.
인스턴스 기반 기계 번역
전 세계가 기계 번역의 낮은 단계에 빠졌지 만 기계 번역에 대한 강한 집착이있는 나라가 있습니다. 일본은 영어 실력이 떨어지기 때문에 기계 번역에 대한 요구가 엄격합니다.
교토 대학 교수 마코토 나가오 기반 기계 번역을 제안, 우리는 우리가 정확하게 문장 일치하지 않는 경우에도 불구하고, 문장의 충분한 수를 유지하는만큼, 처음부터 기계를 중지하고 번역 할 것입니다 또한 문장에 비교 될 수 있으며, 번역 한 단어의 대체 될 수있는 동일하지 않습니다. 물론 이것은이 더 문제가 발생하지 얼마나 많은 영리 규칙 기반 기계 번역 이상 순진하지 않다. 그러나 오래 전에 인류는 바벨탑을 다시 희망 새벽을 다시 볼 것으로 보인다.
통계적 기계 번역을 바탕으로
에서 통계적 기계 번역 붐 또는 IBM을 폭발 1993 년에 발행 된 "기계 번역 수학적 이론"논문은 통계 모델은 "IBM 모델 1"이라는 단어에서 다섯 개 단위로 구성 제안 "5 IBM 모델."
아이디어 통계 모델은 원칙적으로 병렬 코퍼스를 사용할 필요가있다. 확률의 문제로 변환되어 영어가의 다음 말 그대로 통계. 예를 들어, 기계는 무엇을 "지식"을 아는 것은 아니지만, 그러나 코퍼스 통계의 대부분 후, 당신은 발견 할 것이다 한 문장에 대한 지식이 나타납니다로서, 해당 영어 문장조차 사전과 문법 규칙의 인공적인 유지 보수없이 이런 식으로 나타납니다 "지식"단어.이 될 것입니다, 또한 기계가 단어의 의미를 이해합니다.
초기 워렌 위브는 유사한 개념을 제안하기 때문에이 개념은 새로운 것이 아니라 거기에 충분한 시간이 아니다 병렬 코퍼스가 너무 약했고 제한된 용량 계산기, 그래서 구현. 현대 통계적 기계 번역에서 없다 여기서 "현대 로제타 스톤"을 의미 찾기 위해 유엔 결의와 발표는 개별 회원국의 언어 버전을 가지고 있기 때문에? 사실, 가장 중요한 소스는 유엔이지만, 그 이외의, 당신은 당신의 자신의 병렬 코퍼스을 만들고 싶어 이제 인간의 번역 비용은이 비용이 놀라 울 정도로 높다는 것을 알게 해줍니다.
지난 10 년 동안 모든 사람들은 Google 번역이 통계적 기계 번역을 기반으로한다는 사실을 알고 있었기 때문에 통계 변환 모델이 타워의 가장 큰 원인을 달성 할 수 없음이 분명합니다. 인쇄물에서 기계 번역은 "유용"보다는 "유용한"정도.
신경망 기계 번역
2014 년까지 기계 번역은 역사상 가장 혁명적 인 변화, 즉 "깊은 학습"을 이끌었습니다!
실제로 신경망 발명은 80 년이 넘었지만 Geoffrey Hinton (3 대 신의 깊은 연구)이 2006 년 신경 네트워크 최적화의 치명적인 단점을 개선 한 이후로 깊은 학습이 계속되었습니다. 다양한 기적과 같은 결과가 우리 삶에 자주 등장합니다 .2015 년에 기계가 인간을 초월한 이미지 인식을 처음으로 실현했으며 2016 년 Alpha Go는 세계 체스 왕을 물리 쳤고 2017 년에는 음성 인식이 인간의 속기를 능가했으며 2018 년에는 기계 영어 독해는 인간을 초월한 것입니다. 물론이 기계 비평의 깊이있는 학습으로 인해 기계 번역 분야도 번성하기 시작했습니다.
처음으로 2014 년 논문에서 세 신들의 요 수아 벤 지오 깊이 연구는 기계 번역 기술을 학습의 깊이의 기본 아키텍처를 설립했다. 그는 주로 재발 성 신경 네트워크 순서 (RNN)를 기반으로, 기계가 자동으로 문장 사이에 캡처 할 수 있도록 워드 기능 및 자동으로 다른 언어로 번역에 기록.이 문서 하나, 구글 보물은. 매우 빠르고, 구글에서 적절한 하나님의 축복 아래 화약의 공급뿐만 아니라 대형은, 구글은 공식적으로 2016 년 발표 모든 통계적 기계 번역 프레임, 신경 네트워크 호스트 기계 번역에 현대적인 기계 번역의 절대 주류가 될 수 있습니다.
Google의 신경망 기계 번역의 가장 큰 특징은주의 추가입니다. 실제로 주목 메커니즘은 인간의 번역을 시뮬레이션 할 때 눈을 먼저 훑어보고 의미를 확인하는 몇 가지 핵심 단어를 찾아내는 것입니다. 프로세스 (그림 2) 물론 주목 메커니즘의 축복으로 힘이 크게 증가했습니다 .Google은 영어 - 프랑스어, 영어 - 중국어 및 영어 - 서양 언어에서 오류율이 변경되었다고 주장합니다. 통계적 기계 번역 시스템이 60 % 감소되었습니다.
신경망은 기존의 병렬 자료를 통해 배우고 문장의 미묘한 언어 적 특징을 이해할 수는 있지만 완벽하지는 않습니다. 가장 큰 문제는 필요한 많은 양의 데이터와 블랙 박스로 이해할 수 없기 때문에 발생합니다. 실수를 할 수있는 방법은 없지만 "깊은 학습"을 수정하기 위해보다 정확한 자료를 제공해야합니다. 따라서 동일한 문장 패턴은 매우 다른 번역 결과를 가질 수 있습니다.
2018 년 2 월, Microsoft는 인류를 초월한 기계어 이해를 위해 새로운 움직임을 보였습니다 .3 월 14 일 Microsoft Research Asia와 Redmond Research Institute의 연구원은 R & D 기계 번역 시스템이 Newstest2017의 중국어 / 영어 번역 테스트 세트가 인간 번역에 필적하는 수준에 도달 한 뉴스 리포트 테스트 세트는 자연스럽게 신경망의 기계 번역에서 중요한 승리이며 당연히 아키텍처에서 많은 혁신이 있으며 가장 주목할만한 것입니다. 이중 학습 및 심의 네트워크와 합류했습니다.
이중 학습은 제한된 병렬 코퍼스의 문제를 해결해야하는데, 일반적으로 기계에 깊은 학습을 동시에 제공해야하며, 이렇게하면 번역 결과와 답변의 차이에 따라 기계를 지속적으로 수정하고 개선 할 수 있습니다. 자극 네트워크의 경우 인간 번역을 모방하는 과정이기도합니다. 일반적으로 인간 번역사는 먼저 대략적인 번역을 수행 한 다음 내용을 정확한 두 번째 번역 결과로 조정합니다. 실제로 신경 네트워크가 얼마나 똑똑 하든지 표면의 가장 똑똑한 생물을 참조해야합니다. 인류를 위해서.
문맥을 벗어난 언어는 사용할 수 없습니다.
기계 번역의 발전은 번역 산업에 종사하는 사람들이 장래에 식량을 제공하지 않는다는 의미는 아니며, Microsoft의 간행물은 "Universal News Report Test Set Newstest 2017"의 "중국어 - 영어 번역 테스트 세트"를 강조하고 있음을 알 수 있습니다. 좋은 성능은 보편성과 같지 않을 수 있습니다. 또한 Tencent의 번역가 인 Jun Mingming이 좋은 평판을 얻는 이유를 설명 할 수 있지만 Boao의 실시간 해석이 왜 부정확한지 설명 할 수 있습니다.
실시간 통역은 번역 작업의 절정이라고 할 수 있습니다. 원문의 정확한 청취력 외에도 제한된 시간 내에 다른 언어로 변환해야하며, 번역사는 번역을위한 시간을 제공하지 않으므로 음성 인식과 동일합니다. 기계 번역은 현장에서 발생하는 소음, 화자의 표현, 모달 단어의 중개 등과 함께 동 기적으로 처리되어야하며, 모두 기계에 의한 오판을 초래할 수 있습니다.
필자의 견지에서 볼 때, Tencent의 왕에 대한 번역은 저작이 충분하지 않을 수 있으며 주요 고유 명사가 입력되지 않는다는 비난을받을 수있다. 이것은 "고속도로와 벨트"의 "고전적인 실수"를 초래할 것이다.
흥미로운 차이점은 그림 3에서 볼 수 있습니다. 왜 서양 기계 번역이 잘못되었지만 모국에서의 기계 번역은 거의 항상 통제되고 있습니까? 이것은 언어가 인간 사용 시나리오에서 벗어나지 않고 존재할 수 없기 때문에 가능합니다. 과거의 문화에서 비롯된 문맥은 과거에 흔했던 추억으로 이루어져 있습니다. 당 (唐)시를 읽지 않은 구글은 당연히이시의 본질을 이해할 수 없습니다. 언어는 인공 지능 시대의 마지막 인간 장벽이 될 수 있습니다. 인간의 사용으로 인해 언어가 끊임없이 바뀔 것입니다. 이것은 기계를 대체하는 매우 어려운 대용품입니다.
기술 발전에 따라 기계 번역은 "유용함"에서 "유용함"으로 바뀌고 "유용함"으로 변화 할 것입니다.하지만 항상 주장했듯이 기계는 사람들에게 자신의 업무를 빼앗기지 않습니다. 인간이 실업 상태에 처한 것은 단지 자신의 도구가되는 인공 지능을 어떻게 활용하고 지루한 작업에서 벗어나게하는 것이지, 이것은 올바른 자세입니다.