ในบทที่ 11 ของพระคัมภีร์พันธสัญญาเดิมปฐมกาลหลังจากที่น้ำท่วมใหญ่ได้ถอยห่างออกไปผู้คนในโลกนี้คือลูกหลานของโนอาห์และพูดภาษาเดียวกันในเวลานั้นมนุษย์เริ่มร่วมมือกันและสร้างหอคอยชื่อบาเบล Tower of the Towers การเคลื่อนไหวนี้ได้แจ้งเตือนพระเจ้าพระเจ้าจึงอนุญาตให้มนุษย์ในโลกเริ่มมีภาษาต่างกันตั้งแต่นั้นมามนุษย์ก็ไม่สามารถทำงานร่วมกันได้แผนสร้าง Sky Tower สิ้นสุดลงด้วยความล้มเหลวและความแตกต่างของภาษาได้กลายเป็นสิ่งที่ใหญ่ที่สุด อุปสรรคบางทีอาจจะยังคงมีความฝันในเลือดที่จะสร้างหอคอยแห่งบาเบลได้ดังนั้นการแปลกลายเป็นโครงการทางวัฒนธรรมที่สำคัญสำหรับการวิวัฒนาการอย่างต่อเนื่องของมนุษยชาติในช่วงหลายพันปีที่ผ่านมา
อุปสรรคด้านภาษาศาสตร์ไม่ใช่เรื่องง่ายที่จะแตกแยกโดยเฉพาะอย่างยิ่งมีความจำเป็นที่จะต้องเข้าใจแนวคิดเดียวกันในหลายภาษาเป็นครั้งแรกในประวัติศาสตร์มนุษย์เป็นภาษาคู่ขนานที่ผลิตขึ้นโดย Rosetta Stone เมื่อปี 196 ก่อนคริสต์ศักราช ภาษาอียิปต์โบราณภาษากรีกโบราณและตำราภาษาท้องถิ่นถูกนำมาใช้เพื่อบันทึกพระคัมภีร์ที่สลักไว้ของกษัตริย์ปโตเลมีของกษัตริย์อียิปต์โบราณและนี่เป็นก้าวสำคัญในการแปล
การแปลด้วยเครื่องจักรที่ใช้กฎ
นักวิจัยด้านทฤษฎีสารสนเทศ Warren Weave ได้เสนอแนวคิดเกี่ยวกับการแปลด้วยเครื่องอย่างเป็นทางการเมื่อต้นปีที่ พ.ศ. 2497 ไอบีเอ็มและมหาวิทยาลัยจอร์จทาวน์ในสหรัฐอเมริกาได้ประกาศเครื่องแปลภาษาแรกในโลก IBM-701 สามารถแปลภาษารัสเซียเป็นภาษาอังกฤษได้โดยไม่ต้องกล่าวถึงว่ามีขนาดใหญ่มากจริงๆแล้วมีเพียงหกกฎไวยากรณ์และ 250 คำเท่านั้น แต่ยังคงเป็นความก้าวหน้าทางเทคโนโลยีที่สำคัญ ในเวลานั้นมนุษย์เริ่มรู้สึกว่าพวกเขาควรจะสามารถทำลายกำแพงภาษาได้อย่างรวดเร็ว
เป็นไปได้ว่าพระเจ้าได้สังเกตเห็นบางสิ่งบางอย่างที่แตกต่างและเทน้ำเย็นลงในแผนฟื้นฟูมนุษย์ของ Tower of Babel ในปีพ. ศ. 2507 American Academy of Sciences ได้จัดตั้งคณะกรรมการเพื่อส่งเสริมการประมวลผลภาษาอัตโนมัติ (ALPAC) อีกสองปีต่อมาในคณะกรรมการ ในรายงานฉบับนี้ถือว่าการแปลโดยคอมพิวเตอร์ไม่คุ้มค่าที่จะลงทุนต่อไปเนื่องจากรายงานฉบับนี้ทำให้สหรัฐอเมริกาเกือบจะหยุดการศึกษาเกี่ยวกับการแปลโดยเครื่องคอมพิวเตอร์ในอีกสิบปีข้างหน้า
นับตั้งแต่เกิดเครื่องแปลภาษาตัวแรกของไอบีเอ็มจนถึงปีพ. ศ. 1980 เทคโนโลยีหลักในเวลานั้นคือการแปลโดยใช้กฎ (rule-based machine translation) วิธีที่ใช้ทั่วไปคือการแปลคำศัพท์ตามพจนานุกรมโดยตรงแม้ว่าบางคนเสนอให้เพิ่มกฎไวยากรณ์เพื่อแก้ไขให้ถูกต้อง แต่ความจริงแล้วผลลัพธ์ที่ได้จะเป็นที่น่าผิดหวังมากเพราะดูเหมือนโง่ ๆ ดังนั้นในช่วงทศวรรษที่ 1980 การปฏิบัติดังกล่าวจึงหายไป
ทำไมภาษาต่างๆจึงไม่สามารถใช้กฎได้เนื่องจากภาษาเป็นระบบที่ซับซ้อนและคลุมเครือตั้งแต่คำกำกวมเป็นวาทศาสตร์เป็นไปไม่ได้ที่จะหมดกฎทั้งหมด แต่สิ่งที่น่าสนใจคือนวัตกรรมใหม่ ๆ ในภาษาธรรมชาติ บริษัท ยังคงพยายามที่จะแก้ความหมายของภาษาจีนด้วยกฎที่ละเอียดถี่ถ้วน แต่ความคิดนี้จะยุติลงอย่างสิ้นเชิง
ฉันจะยกตัวอย่างเพื่ออธิบายว่าเหตุใดกฎจึงไม่สามารถทำได้อย่าพูดถึงความซับซ้อนของการแปลในสองภาษาเพียงจากมุมมองของจีนแนวคิดของการจัดส่งด่วนทำได้รวดเร็วคุณสามารถคิดได้กี่แบบ? 10 ชนิดหรือ 100 ชนิดตามที่สถิติทางภาษาธรรมชาติที่เราได้ทำมาก่อนอาจมี 3,600 ชนิดของคำสอนทั้งหมดและตัวเลขนี้ควรเพิ่มขึ้นเมื่อเวลาผ่านไปประโยคที่มีแนวคิดง่ายๆเช่นนี้สามารถทำได้ สำหรับกฎระเบียบที่ซับซ้อนถ้าคุณใช้คำแปลฉันกลัวว่าจำนวนกฎจะเป็นตัวเลขทางดาราศาสตร์ที่น่าอัศจรรย์ดังนั้นความคิดในการแปลด้วยเครื่องตามกฎจะกลายเป็นดอกไม้สีเหลืองเมื่อวานนี้
การแปลด้วยเครื่องอิงตามตัว
ในขณะที่ทั้งโลกตกอยู่ในช่วงต่ำของการแปลด้วยเครื่องก็มีประเทศที่มีความหลงใหลในการแปลภาษาด้วยเครื่องนั่นคือญี่ปุ่นญี่ปุ่นมีความสามารถด้านภาษาอังกฤษที่ไม่ดีและมีความต้องการใช้เครื่องแปลภาษาแบบเข้มงวดมาก
ศาสตราจารย์ Nagao Shinretsu จากมหาวิทยาลัยเกียวโตประเทศญี่ปุ่นได้เสนอการแปลด้วยคอมพิวเตอร์โดยใช้ตัวอย่างเช่นหยุดคิดเกี่ยวกับการให้เครื่องจักรแปลตั้งแต่เริ่มต้นเราจำเป็นต้องจัดเก็บประโยคตัวอย่างเช่นเราจะต้องเก็บประโยคที่ไม่ตรงกับที่เราต้องการ นอกจากนี้คุณยังสามารถเปรียบเทียบประโยคตัวอย่างได้โดยเพียงแค่เปลี่ยนคำแปลของคำต่างๆคำว่าการคิดแบบไร้เดียงสานี้ไม่ได้ดีไปกว่าการแปลด้วยเครื่องจักรที่ใช้กฎมากดังนั้นจึงไม่ได้ทำให้เกิดคลื่น แต่ในไม่ช้าความหวังของการสร้างหอคอยแห่งบาเบลของมนุษย์ ดูเหมือนจะเห็นรุ่งอรุณอีกครั้ง
การแปลด้วยเครื่องทางสถิติ
จุดชนวนบูมเครื่องแปลภาษาเชิงสถิติหรือไอบีเอ็มใน "เครื่องแปลภาษาคณิตศาสตร์ทฤษฎี" กระดาษที่ออกในปี 1993 ที่นำเสนอแบบจำลองทางสถิติประกอบด้วยห้าหน่วยในคำที่เรียกว่า "ไอบีเอ็มรุ่น 1" ถึง "5 รุ่น IBM."
ไอเดียแบบจำลองทางสถิติแปลว่าคำถามของความน่าจะเป็น. ในหลักการไม่จำเป็นต้องใช้คลังข้อมูลแบบขนานและจากนั้นแท้จริงสถิติ. ตัวอย่างเช่นแม้ว่าเครื่องที่ไม่ได้รู้ว่าสิ่งที่ "ความรู้" ภาษาอังกฤษเป็น แต่หลังจากที่มากที่สุดของสถิติคลังคุณจะพบ ตราบใดที่ยังเป็นความรู้ของประโยคปรากฏขึ้นที่สอดคล้องประโยคภาษาอังกฤษจะเป็น "ความรู้" คำปรากฏ. ในลักษณะนี้ได้โดยไม่ต้องบำรุงรักษาเทียมพจนานุกรมและกฎไวยากรณ์ แต่ยังทำให้เครื่องเข้าใจความหมายของคำว่า
แนวคิดนี้ไม่ใช่เรื่องใหม่เพราะ Warren Weave ได้เสนอแนวความคิดที่คล้ายกัน แต่ก็ยังมีเนื้อเรื่องแบบขนานไม่เพียงพอและความสามารถในการ จำกัด เครื่องคิดเลขในเวลานั้นอ่อนแอเกินไปและไม่นำมาปฏิบัติจริง Modern Statistical Machine Translation มาจาก แหล่งกำเนิดหลักคือสหประชาชาติเนื่องจากมติและประกาศของสหประชาชาติทั้งหมดจะอยู่ในเวอร์ชันภาษาต่างๆของประเทศสมาชิก แต่นอกเหนือจากนี้เราต้องผลิตคลังข้อมูลแบบขนานด้วยตัวเราเอง ขณะนี้ต้นทุนของการแปลของมนุษย์แปลว่ารู้ว่าค่าใช้จ่ายนี้สูงอย่างน่าอัศจรรย์
ในช่วง 10 ปีที่ผ่านมาทุกคนคุ้นเคยกับการแปลของ Google อยู่บนพื้นฐานของการแปลด้วยเครื่องทางสถิติการได้ยินนี้ควรมีความชัดเจนว่ารูปแบบการแปลทางสถิติไม่สามารถบรรลุถึงสาเหตุที่ยิ่งใหญ่ของหอในการพิมพ์ของคุณ ระดับของ "ประโยชน์" มากกว่า "ประโยชน์"
การแปลด้วยเครื่องเครือข่ายประสาทเทียม
โดยปี 2014 การแปลด้วยเครื่องได้เปิดตัวการเปลี่ยนแปลงครั้งใหญ่ที่สุดในประวัติศาสตร์ - "การเรียนรู้ลึก ๆ "!
เครือข่ายประสาทไม่ใหม่ในความเป็นจริงเครือข่ายประสาทประดิษฐ์ได้รับ 80 ปีที่ผ่านมา แต่เนื่องจากในปี 2006 เจฟฟรีย์ฮินตัน (การศึกษาสามลึกขนาดใหญ่ครั้งแรกของพระเจ้า) การปรับปรุงการเพิ่มประสิทธิภาพเครือข่ายประสาทข้อบกพร่องร้ายแรงจะช้าเกินไปที่การเรียนรู้ลึกจะยังคง มาพร้อมกับความหลากหลายของความสำเร็จที่น่าอัศจรรย์มักปรากฏในชีวิตของเราในปี 2015 เครื่องเป็นครั้งแรกเกินกว่าการรับรู้ภาพของมนุษย์ ;. 2016 อัลฟาไปเอาชนะแชมป์หมากรุกโลก 2017, มากกว่าการรับรู้เสียงของมนุษย์ชวเลข; 2018 เครื่องอ่านภาษาอังกฤษเป็นครั้งแรกเกินความเข้าใจของมนุษย์. แน่นอน, เครื่องแปลภาษาในด้านนี้ แต่ยังเพราะของความลึกและเริ่มต้นการเรียนรู้นี้อวดปุ๋ยซุปเปอร์
Yoshua Bengio ของการเรียนรู้ลึกพระเจ้าในกระดาษ 2014 เป็นครั้งแรกที่วางโครงสร้างพื้นฐานของเทคโนโลยีการเรียนรู้ลึกสำหรับการแปลโดยคอมพิวเตอร์เขาส่วนใหญ่จะใช้เครือข่ายประสาทตามลำดับที่ใช้ซ้ำ (RNN) เพื่อให้เครื่องสามารถจับภาพประโยคโดยอัตโนมัติ คุณลักษณะคำซึ่งจะสามารถแปลโดยอัตโนมัติในผลการแปลภาษาอื่นบทความนี้แสดงให้เห็นว่า Google เป็นที่รักไม่นานหลังจากที่ Google จัดหาดินปืนเพียงพอและพระพรของพระเจ้ายิ่งใหญ่ Google ประกาศอย่างเป็นทางการในปี 2016 ว่า การแปลโดยเครื่องทางสถิติทั้งหมดออกจากชั้นวางระบบแปลภาษาของเครือข่ายประสาทเทียมกลายเป็นหลักสำคัญในการแปลภาษาเครื่องจักรที่ทันสมัย
คุณลักษณะที่ใหญ่ที่สุดของการแปลของเครื่องเครือข่ายประสาทเทียมของ Google คือการเพิ่มความสนใจในความเป็นจริงกลไกการให้ความสนใจคือกวาดสายตาก่อนเมื่อจำลองการแปลของมนุษย์จากนั้นเลือกคำสำคัญบางคำเพื่อยืนยันความหมาย กระบวนการ (รูปที่ 2) แน่นอนว่าเมื่อได้รับพรจากกลไกการให้ความสนใจพลังงานได้เพิ่มขึ้นอย่างมาก Google อ้างว่าในภาษาอังกฤษฝรั่งเศสอังกฤษและจีนตะวันตกมีอัตราการเกิดข้อผิดพลาด ระบบการแปลด้วยเครื่องทางสถิติลดลง 60%
แม้ว่าเครือข่ายประสาทสามารถเรียนรู้จากคลังข้อมูลคู่ขนานที่มีอยู่แล้วและเข้าใจถึงลักษณะทางภาษาศาสตร์ที่ลึกซึ้งของประโยค แต่ก็ไม่สมบูรณ์แบบปัญหาใหญ่ที่สุดเกิดขึ้นจากข้อมูลจำนวนมากที่จำเป็นและไม่สามารถเข้าใจได้ว่าเป็นกล่องดำกล่าวคือ " ไม่มีทางที่จะทำผิดพลาด แต่เพียงเพื่อให้คลังข้อมูลถูกต้องมากขึ้นเพื่อแก้ไข "การเรียนรู้อย่างลึกซึ้ง" ดังนั้นรูปแบบประโยคเดียวกันอาจมีผลการแปลที่แตกต่างกันมาก
กุมภาพันธ์ 2018 ไมโครซอฟท์ (Microsoft) จะต้องทำภาษาเครื่องเข้าใจทันทีหลังจากที่ความคิดริเริ่มใหม่เกินกว่ามนุษย์. วันที่ 14 มีนาคมนักวิจัย Microsoft Research เอเชียและเรดมอนด์สถาบันประกาศว่าการวิจัยและการพัฒนาของระบบเครื่องแปลภาษาในการร่วมกัน ข่าวเกี่ยวกับการทดสอบที่ตั้งไว้ในการแปลภาษาอังกฤษของการทดสอบที่กำหนด Newstest2017 สามารถถึงระดับที่เทียบเคียงกับการแปลของมนุษย์. ธรรมชาติเครือข่ายประสาทนี้เป็นเครื่องแปลภาษาของชัยชนะที่ยิ่งใหญ่ของหลักสูตรมีจำนวนมากของนวัตกรรมในงานสถาปัตยกรรมที่โดดเด่นที่สุดของ มันคือการรวมของการเรียนรู้คู่ (การเรียนรู้แบบ Dual) และเครือข่ายการตรวจสอบข้อเท็จจริง (เครือข่ายการตรึกตรอง)
การเรียนรู้คู่การแก้ปัญหาของ จำกัด คลังขนานโดยทั่วไปความลึกของการเรียนรู้ที่จะต้องให้คำตอบเครื่องเพื่อเครื่องจะสามารถที่จะอยู่บนพื้นฐานของความแตกต่างระหว่างการแปลและคำตอบที่ได้รับการแก้ไขอย่างยั่งยืนปรับปรุง. ในฐานะที่เป็นเครือข่ายการตรวจสอบข้อเท็จจริงยังเลียนแบบกระบวนการของการแปลของมนุษย์ มักจะแปลของมนุษย์จะทำครั้งแรกแปลหยาบและปรับเนื้อหาที่แม่นยำของการแปลภาษาที่สองในความเป็นจริงคุณอาจพบว่าไม่ว่าอัจฉริยะเครือข่ายประสาทจะยังคงจบลงบนพื้นผิวการอ้างอิงของสิ่งมีชีวิตที่ฉลาดที่สุดซึ่งเป็นร่างกาย เราเป็นมนุษย์
ภาษาไม่สามารถหนีบริบทของการใช้งาน
การพัฒนาเครื่องแปลภาษาไม่ได้หมายความว่าอนาคตของวิชาชีพการแปลจะเป็นอาหารการกินไม่มี. มันอาจจะตั้งข้อสังเกตว่าการนำเสนอไมโครซอฟท์เน้น "สากลชุดทดสอบรายงาน Newstest2017 ข่าว" ของ "ชุดทดสอบภาษาอังกฤษ" ชุดข้อมูล ผลการดำเนินงานที่ดีอาจไม่เท่ากับความเป็นสากลซึ่งสามารถอธิบายได้ว่าเหตุใดผู้แปลของ Junnan Ming ของ Tencent จึงมีชื่อเสียงที่ดี แต่ทำไมการตีความแบบเรียลไทม์ใน Boao จึงไม่ถูกต้อง
เวลาจริงการตีความแปลอาจกล่าวได้ว่าเป็นสุดยอดของงานที่เราจะต้องมีความเข้าใจที่ถูกต้องของการได้ยินประโยคเดิม แต่ยังแปลงสำหรับระยะเวลาที่ จำกัด สำหรับภาษาอื่น ๆ. และอย่าลืมลำโพงจะไม่ให้เวลาเพื่อรอการแปล, การรับรู้เสียงและเท่าเทียมกันดังนั้น การแปลด้วยเครื่องจักรต้องดำเนินการแบบซิงโครนัสรวมทั้งเสียงในที่เกิดเหตุการพูดของผู้พูดการแทรกคำคำกิริยาเป็นต้นซึ่งทั้งหมดนี้อาจทำให้เครื่องตัดสินใจผิดพลาดได้
จากมุมมองของฉันการแปลพระมหากษัตริย์ของ Tencent อาจถูกตำหนิในประเด็นที่อาจไม่สามารถใช้งานได้และไม่ได้ใส่คำนามที่สำคัญที่สำคัญซึ่งจะส่งผลให้เกิด "ข้อผิดพลาดแบบคลาสสิก" ของ "ทางหลวงและสายพาน"
ความแตกต่างที่น่าสนใจก็คือรูปที่ 3 ทำไมเครื่องแปลภาษาตะวันตกถูกใส่ผิด แต่เครื่องแปลภาษาในประเทศบ้านเกิดเกือบจะควบคุมไม่ได้เพราะภาษาไม่สามารถอยู่ได้โดยไม่ต้องออกจากสถานการณ์การใช้งานของมนุษย์นั่นคือเรามักจะเรียนภาษาจีน บริบทซึ่งมาจากวัฒนธรรมในอดีตของเราประกอบด้วยความทรงจำที่เคยเป็นมาในอดีต Google ผู้ที่ยังไม่ได้อ่านบทกวี Tang ธรรมชาติไม่สามารถเข้าใจสาระสำคัญของบทกวีนี้ภาษาอาจเป็นอุปสรรคสุดท้ายของมนุษย์ในยุคปัญญาประดิษฐ์ได้เนื่องจาก ภาษาจะมีการเปลี่ยนแปลงอย่างต่อเนื่องเนื่องจากการใช้มนุษย์นี่เป็นเครื่องทดแทนเครื่องจักรที่ยากมาก
ด้วยความก้าวหน้าของเทคโนโลยีวันหนึ่งการแปลด้วยเครื่องจะเปลี่ยนจาก "เป็นประโยชน์" เป็น "ประโยชน์" และพัฒนาไปเป็น "ประโยชน์" แต่อย่างที่ฉันเคยถกเถียงกันอยู่เสมอเครื่องจะไม่ปล้นการทำงานของคนอื่น เป็นเพียงตัวเราเองที่มนุษย์ตกงานวิธีใช้ปัญญาประดิษฐ์ให้เป็นเครื่องมือของคุณเองและถอนตนเองออกจากงานที่น่าเบื่อนี่คือท่าทางที่ถูกต้องสำหรับอนาคต