"बाइबल पुराने नियम उत्पत्ति" अध्याय 11 में वर्णित है, के बाद महान बाढ़ के कम होने, इस इंसानों की दुनिया नूह के बेटे हैं, एक ही भाषा बोलते जब मनुष्य सहयोग करने के लिए शुरू किया, निर्माण कोलाहल के कोलाहल टॉवर कहा जाता है टॉवर। इस कदम भगवान चिंतित है, तो भगवान मनुष्य करते हैं दुनिया भर में एक अलग भाषा होने लगे, मानव जाति नहीं रह गया है संयुक्त सहयोग था। कोलाहल योजना, विफलता में समाप्त हुआ जब भाषा मतभेद भी सबसे बड़ा मानव संचार बना दिया बाधा। शायद खून अभी भी कोलाहल के टावर के पुनर्निर्माण का सपना चाहते हैं, इसलिए अनुवाद विकसित करने में इतिहास के वर्षों के अतीत हजारों मानव सांस्कृतिक परियोजनाओं का ध्यान केंद्रित हो गया है।
भाषाई बाधा तोड़ना इतना आसान नहीं है। विशेष रूप से, भाषाओं में एक ही अवधारणा को समझना जरूरी है। मानव इतिहास में पहली बार, क्रॉस-भाषा समांतर निगम का उत्पादन 1 9 6 ईसा पूर्व में रोसेटा स्टोन द्वारा किया गया था। प्राचीन मिस्र की भाषा, प्राचीन ग्रीक, और स्थानीय बोलचाल ग्रंथों का उपयोग प्राचीन मिस्र के राजा के राजा टॉल्मी के उत्कीर्ण ग्रंथों को रिकॉर्ड करने के लिए किया जाता था। यह अनुवाद में एक प्रमुख मील का पत्थर भी है।
नियम-आधारित मशीन अनुवाद
स्रोत मशीन अनुवाद का सवाल है, वापस 1949 तक पता लगाया जा सकता, सूचना सिद्धांत शोधकर्ता वॉरेन Weave औपचारिक रूप से मशीन अनुवाद की अवधारणा का प्रस्ताव रखा। पांच साल बाद, वह है, 1954 में, आईबीएम जॉर्ज टाउन विश्वविद्यालय के सहयोग से दुनिया का पहला मशीन अनुवाद की घोषणा की आईबीएम 701। यह, अंग्रेजी में अनुवाद करने के रूस में सक्षम है, हालांकि यह एक महान शरीर है, जो वास्तव में यह केवल कानूनी नियमों के छह प्रावधानों के साथ-साथ 250 शब्दों। बनाया गया है लेकिन फिर भी, यह अभी भी एक प्रमुख तकनीकी सफलता है, जब मनुष्य सोचना शुरू किया तो हम जल्द ही भाषा की दीवारों को तोड़ने के लिए सक्षम होना चाहिए।
भगवान के बारे में पता हो सकता है वहाँ मतभेद हैं, लेकिन यह भी मनुष्य के लिए कोलाहल के टॉवर ठंडे पानी की एक बाल्टी डाला के पुनर्निर्माण के लिए योजना है। 1964 में, विज्ञान सलाहकार समिति की राष्ट्रीय अकादमी भाषा का स्वत: प्रसंस्करण (स्वचालित भाषा संसाधन सलाहकार समिति, ALPAC) की स्थापना की। दो साल बाद, आयोग प्रस्तुत रिपोर्ट में, यह माना जाता है कि मशीन अनुवाद निवेश जारी रखने के लायक नहीं है, क्योंकि इस रिपोर्ट ने संयुक्त राज्य अमेरिका को अगले दस वर्षों में मशीन अनुवाद अध्ययन को लगभग पूरी तरह बंद कर दिया है।
1 9 80 के दशक में आईबीएम की पहली अनुवाद मशीन के जन्म से, उस समय तकनीकी मुख्यधारा नियम-आधारित मशीन अनुवाद थी। सबसे आम तरीका शब्दकोष के अनुसार शब्दों का सीधे अनुवाद करना है, हालांकि कुछ लोगों ने बाद में उन्हें सही करने के लिए वाक्यविन्यास नियम जोड़ने का प्रस्ताव रखा। लेकिन ईमानदार होने के लिए, परिणाम बहुत निराशाजनक साबित हुए, क्योंकि यह बेवकूफ दिखता है। इसलिए, 1 9 80 के दशक तक इस तरह के प्रथा गायब हो गईं।
क्यों बयानबाजी के सभी प्रकार के लिए शब्द की अस्पष्टता से भाषा के नियमों को लागू नहीं कर सकते? क्योंकि भाषा बेहद जटिल और अस्पष्ट प्रणाली है,, सभी असंभव संपूर्ण नियम। लेकिन दिलचस्प है, हाल ही में क्षेत्र की नई कंपनियों के कई प्राकृतिक भाषा में लगे कंपनी, अभी भी संपूर्ण नियमों के साथ चीनी अर्थशास्त्र को हल करने की कोशिश कर रही है, लेकिन यह विचार निश्चित रूप से विफलता में समाप्त होगा।
मैं यह बताने के लिए यहां एक उदाहरण दूंगा कि नियम क्यों व्यवहार्य नहीं हैं। दो भाषाओं में अनुवाद की जटिलता का जिक्र नहीं करना चाहिए। चीनी परिप्रेक्ष्य से, एक्सप्रेस डिलीवरी की अवधारणा तेज है, आप कितने प्रकार के शिक्षण के बारे में सोच सकते हैं? 10 प्रकार या 100 प्रकार? प्राकृतिक भाषा के आंकड़ों के मुताबिक हमने पहले किया है, कुल मिलाकर 3,600 प्रकार की शिक्षाएं हो सकती हैं, और यह संख्या समय के साथ बढ़नी चाहिए। ऐसी सरल अवधारणा के साथ एक वाक्य ऐसा हो सकता है नियमों की एक जटिल प्रणाली के लिए, यदि आप अनुवाद का उपयोग करते हैं, तो मुझे डर है कि नियमों की मात्रा एक आश्चर्यजनक खगोलीय संख्या होगी। इसलिए, नियम-आधारित मशीन अनुवाद विचार कल पीले फूल बन जाएगा।
इंस्टेंस-आधारित मशीन अनुवाद
कम ज्वार में मशीनी अनुवाद की दुनिया में, मशीन अनुवाद के लिए एक देश एक मजबूत जुनून है, और है कि जापान है। जापानी अंग्रेजी गरीब सार्वभौमिक जाना जाता है, और इसलिए मशीन का अनुवाद वहाँ कठोरता के लिए एक मजबूत मांग है।
क्योटो विश्वविद्यालय के प्रोफेसर माकोटो नागाओ प्रस्तावित आधारित मशीन अनुवाद,, हम खरोंच से मशीन बंद करो और अनुवाद करना चाहते हैं के लिए, जब तक हम, वाक्य की पर्याप्त संख्या रखने के भी चेहरे में बिल्कुल वाक्य से मेल नहीं खाता है भी वाक्य की तुलना में किया जा सकता है, अनुवाद एक ही रूप में लंबे समय के रूप में शब्द के प्रतिस्थापन हो सकता है नहीं है। निश्चित रूप से यह कितने चालाक है, यह कोई परेशानी नहीं की वजह से नियम आधारित मशीन अनुवाद से अनुभवहीन नहीं है। लेकिन लंबे समय से पहले, मानव जाति कोलाहल के टावर के पुनर्निर्माण के लिए आशा यह सुबह फिर से देखने के लिए लगता है।
सांख्यिकीय मशीन अनुवाद के आधार पर
में विस्फोट सांख्यिकीय मशीन अनुवाद उछाल या आईबीएम, "मशीन अनुवाद गणितीय सिद्धांत" कागज 1993 में जारी किए गए प्रस्तावित सांख्यिकीय मॉडल एक शब्द, "आईबीएम मॉडल 1" के लिए बुलाया में पांच इकाइयों के होते हैं "5 आईबीएम मॉडल।"
विचार सांख्यिकीय मॉडल संभावनाओं का सवाल के रूप में अनुवाद किया है। सिद्धांत रूप में समानांतर कोष उपयोग करने की आवश्यकता है, और फिर सचमुच आँकड़े। उदाहरण के लिए, हालांकि मशीन नहीं पता था कि क्या "ज्ञान" के अंग्रेजी है, लेकिन कोष आंकड़ों के सबसे बाद, तो आप पाएंगे जब तक की सजा का ज्ञान नहीं है के रूप में प्रकट होता है, इसी अंग्रेजी वाक्य "ज्ञान" शब्द प्रकट होता है। इस तरह से, यहां तक कि शब्दकोशों और व्याकरण के नियमों के कृत्रिम रखरखाव के बिना हो जाएगा, लेकिन यह भी मशीनों शब्द का अर्थ समझते हैं।
यह अवधारणा नई नहीं है, क्योंकि वॉरेन वीव ने पहले एक समान अवधारणा का प्रस्ताव दिया था, लेकिन तब पर्याप्त समांतर कॉर्पस नहीं था और उस समय कैलकुलेटर को सीमित करने की क्षमता बहुत कमजोर थी और इसलिए अभ्यास में नहीं रखा गया। आधुनिक सांख्यिकीय मशीन अनुवाद हम "आधुनिक रोसेटा स्टोन" कहां पा सकते हैं? मुख्य स्रोत संयुक्त राष्ट्र है। क्योंकि संयुक्त राष्ट्र के संकल्प और घोषणाएं सभी सदस्य देशों के भाषा संस्करणों में होंगी, लेकिन इसके अलावा, हमें अपने आप समानांतर कॉर्पस का उत्पादन करना होगा। अब मानव अनुवाद की लागत यह जानने के लिए अनुवाद करती है कि यह लागत आश्चर्यजनक रूप से उच्च है।
पिछले दस वर्षों में, हर कोई Google अनुवाद से परिचित है, सांख्यिकीय मशीन अनुवाद पर आधारित है। यह सुनकर, यह स्पष्ट होना चाहिए कि सांख्यिकीय अनुवाद मॉडल टावर के महान कारण को पूरा करने में असमर्थ है। आपके प्रिंट में, मशीन अनुवाद केवल रहता है "उपयोगी" की बजाय "उपयोगी" की डिग्री।
तंत्रिका नेटवर्क मशीन अनुवाद
2014 तक, मशीन अनुवाद इतिहास में सबसे क्रांतिकारी बदलाव में उभरा - "गहरी शिक्षा"!
तंत्रिका नेटवर्क तथ्य तंत्रिका नेटवर्क आविष्कार 80 साल पहले किया गया है में नया नहीं है, है, लेकिन 2006 के बाद से जेफ्री हिंटन (भगवान के पहले तीन बड़ी गहराई से अध्ययन) में सुधार में तंत्रिका नेटवर्क अनुकूलन मिथ्या दोष बहुत धीमी गति से, गहरी सीखने के लिए जारी रहेगा है 2017, मानव आवाज मान्यता आशुलिपिक की तुलना में अधिक; चमत्कारी उपलब्धियों की एक किस्म के साथ अक्सर 2015 में हमारे जीवन में दिखाई देते हैं, मानव छवि मान्यता से परे पहली बार 2016 ;. के लिए मशीन, अल्फा जाओ विश्व शतरंज चैंपियन को हरा 2018, मानव समझ से परे पहली बार के लिए अंग्रेजी पढ़ने मशीन। भी गहराई की वजह से इस क्षेत्र में निश्चित रूप से, मशीन अनुवाद लेकिन और इस सुपर उर्वरक पनपने सीखने शुरू करते हैं।
2014 के पेपर में गहरी शिक्षा भगवान के योशुआ बेंगियो ने पहली बार मशीन अनुवाद के लिए गहरी सीखने की तकनीक की मूल संरचना रखी। वह मुख्य रूप से एक अनुक्रम-आधारित आवर्ती तंत्रिका नेटवर्क (आरएनएन) का उपयोग करता है, ताकि मशीन स्वचालित रूप से वाक्यों को कैप्चर कर सके शब्द सुविधा, जिसे बदले में स्वचालित रूप से किसी अन्य भाषा के अनुवाद परिणाम में अनुवादित किया जा सकता है। यह आलेख दिखाता है कि Google ने खजाना जीता है। इसके तुरंत बाद, Google ने पर्याप्त गनपाउडर और महान भगवान के आशीर्वाद प्रदान किए, Google ने आधिकारिक तौर पर 2016 में घोषणा की कि सभी सांख्यिकीय मशीन अनुवाद शेल्फ से बाहर थे, तंत्रिका नेटवर्क मशीन अनुवाद आधुनिक मशीन अनुवाद का पूर्ण मुख्यधारा बन गया।
Google के तंत्रिका नेटवर्क मशीन अनुवाद की सबसे बड़ी विशेषता ध्यान का जोड़ है। असल में, मानव तंत्र को अनुकरण करते समय पहली बार आंखों के माध्यम से ध्यान प्रणाली को समाप्त करना है, और फिर अर्थशास्त्र की पुष्टि करने के लिए कुछ महत्वपूर्ण शब्द चुनना है। प्रक्रिया (आंकड़ा 2)। ध्यान दें कि ध्यान तंत्र आशीर्वाद के साथ, शक्ति में काफी वृद्धि हुई है। Google का दावा है कि अंग्रेजी-फ़्रेंच, अंग्रेजी-चीनी और अंग्रेजी-पश्चिमी भाषाओं में, त्रुटि दर बदल गई है। सांख्यिकीय मशीन अनुवाद प्रणाली 60% कम हो गई है।
यद्यपि तंत्रिका नेटवर्क मौजूदा समांतर कॉर्पस से सीख सकता है और वाक्य की सूक्ष्म भाषाई विशेषताओं को समझ सकता है, यह सही नहीं है। बड़ी मात्रा में आवश्यक डेटा और ब्लैक बॉक्स के रूप में इसकी अक्षमता से सबसे बड़ी समस्या उत्पन्न होती है। यही कहना है, गलतियों को करने का कोई तरीका नहीं है, बल्कि केवल "गहरी शिक्षा" को सही करने के लिए अधिक सही कॉर्पस प्रदान करना है। इसलिए, वही वाक्य पैटर्न में बहुत अलग अनुवाद परिणाम हो सकते हैं।
फरवरी 2018, माइक्रोसॉफ्ट (Microsoft) मशीन भाषा मानव परे नई पहल के बाद तुरंत समझ बनाने के लिए किया है। 14 मार्च, माइक्रोसॉफ्ट रिसर्च एशिया और रेडमंड संस्थान के शोधकर्ताओं ने घोषणा की कि उसके अनुसंधान और आम में मशीनी अनुवाद प्रणाली के विकास परीक्षण परीक्षण सेट Newstest2017, मानव अनुवाद के साथ तुलनीय स्तर तक पहुंच सकता का अंग्रेजी अनुवाद में सेट पर समाचार। स्वाभाविक रूप से, इस तंत्रिका नेटवर्क के लिए एक महान जीत का एक मशीन अनुवाद है, ज़ाहिर है, वास्तुकला, की सबसे उल्लेखनीय में नवाचार की एक बहुत कुछ है यह दोहरी लर्निंग और डिलिबरेशन नेटवर्क से जुड़ा हुआ है।
दोहरी शिक्षा, सीमित समानांतर कोष की समस्या को हल करने के लिए सामान्य रूप में, सीखने की गहराई मशीन उत्तर देने के लिए प्रदान की जानी चाहिए, इसलिए मशीन इसके अनुवाद के बीच अंतर के आधार पर और सही जवाब सुधार निरंतर में सक्षम हो जाएगा। यह भी मानव अनुवाद की प्रक्रिया की नकल जांच नेटवर्क के लिए के रूप में आम तौर पर मानव अनुवाद पहले एक मोटा अनुवाद करेंगे, और फिर दूसरी अनुवाद की सटीक सामग्री को समायोजित, वास्तव में, आप पा सकते हैं कि कोई बात नहीं बुद्धिमान तंत्रिका नेटवर्क, अभी भी सबसे बुद्धिमान प्राणियों के संदर्भ सतह है, जो शरीर है पर खत्म हो जाएगा मानवता के लिए हम।
संदर्भ का उपयोग भाषा से बाहर नहीं किया जा सकता है
मशीन अनुवाद के विकास का मतलब यह नहीं है कि अनुवाद पेशे के भविष्य नहीं खाने के लिए भोजन हो जाएगा। यह ध्यान दिया जा सकता है कि माइक्रोसॉफ्ट के प्रस्तुति के "सार्वभौमिक परीक्षण सेट Newstest2017 समाचार रिपोर्टों" "अंग्रेजी अनुवाद परीक्षण सेट," डाटासेट पर बल दिया अच्छे प्रदर्शन और बहुमुखी प्रतिभा के बराबर के चिह्न है, जो भी समझा जा सकता है क्यों Tencent जून स्पष्ट रूप से सामान्य अनुवाद अच्छा था पर आकर्षित करने के लिए सक्षम नहीं हो, लेकिन क्यों Boao वास्तविक समय व्याख्या में गलत प्रदर्शन है।
वास्तविक समय की व्याख्या को अनुवाद कार्य की समाप्ति कहा जा सकता है। मूल वाक्य की सही सुनने की समझ के अलावा, इसे सीमित समय के भीतर अन्य भाषाओं में परिवर्तित किया जाना चाहिए। और याद रखें कि स्पीकर अनुवाद के लिए कोई समय नहीं देगा, इसलिए यह भाषण मान्यता के बराबर है। मशीन अनुवाद को सिंक्रनाइज़ तरीके से संसाधित किया जाना चाहिए, साथ ही स्पॉट पर शोर, स्पीकर की अभिव्यक्ति, मोडल शब्दों के अंतःक्रिया, आदि, जिनमें से सभी मशीन द्वारा गलतफहमी का कारण बन सकते हैं।
मेरे दृष्टिकोण से, राजा के टेन्सेन्ट के अनुवाद को इस बिंदु पर दोषी ठहराया जा सकता है कि यह पर्याप्त काम नहीं हो सकता है, और महत्वपूर्ण उचित संज्ञाएं दर्ज नहीं की जाएंगी। इसके परिणामस्वरूप "राजमार्ग और बेल्ट" की "क्लासिक गलती" होगी।
भी 3 चित्र से देखा जा सकता एक दिलचस्प अंतर है, यही कारण है कि पश्चिम चमक से गलत मशीन अनुवाद, मशीन अनुवाद था, क्योंकि मानव भाषा तलाक नहीं किया जा सकता है उपयोग परिदृश्यों मौजूद हैं। हम अक्सर भाषा सीखने यही कारण है, लेकिन देश के लगभग इरादे में महारत हासिल करने में सक्षम है? यह है संदर्भ पर जोर (संदर्भ) है, जो हमारे अतीत संस्कृति से आता है, वहाँ अतीत की यादों रखा जाता है। तांग गूगल पढ़ा नहीं था स्वाभाविक रूप से इस कविता का सार समझ में नहीं कर सकते हैं। भाषा अवरोधों मानव कृत्रिम बुद्धि के अंतिम युग होगा, क्योंकि भाषा बदल सकते हैं की वजह से मानव उपयोग के लगातार करने के लिए है, यह मशीन करने के लिए उपयुक्त विकल्प मुश्किल है।
प्रौद्योगिकी की प्रगति के साथ, एक दिन, मशीन अनुवाद "उपयोगी" से "उपयोगी" होने और फिर "उपयोगी" होने के लिए बदल जाएगा। लेकिन जैसा कि मैंने हमेशा तर्क दिया है, मशीनें अपने काम के लोगों को लूट नहीं पाएंगी। यह केवल खुद ही है कि मनुष्य बेरोजगार हैं। अपने स्वयं के उपकरण बनने के लिए कृत्रिम बुद्धि का अच्छा उपयोग कैसे करें, और अपने आप को कड़ी मेहनत से वापस लेने के लिए, भविष्य के लिए यह सही मुद्रा है।