समाचार

जब बोली एआई से मुठभेड़ करती है, तो क्या बुद्धिमान आवाज सहायक बोली से पराजित होगा?

आईबीएम के शूबॉक्स और वर्ल्ड ऑफ वंडर गुड़िया जूली गुड़िया की रिहाई के बाद से, भाषण मान्यता प्रौद्योगिकी लगातार विकसित हो रही है। 2018 के अंत तक, Google सहायक 30 से अधिक विभिन्न भाषाओं का समर्थन करता है।

क्वालकॉम ने एक भाषण मान्यता प्रणाली भी विकसित की है जो 95% की शुद्धता दर के साथ शब्दों और वाक्यांशों को पहचानती है। इसके अलावा, माइक्रोसॉफ्ट की बुद्धिमान आवाज सेवा मैन्युअल कॉल सेवाओं की तुलना में अधिक सटीक और कुशल है।

हालांकि, हालांकि मशीन लर्निंग ने भाषण मान्यता प्रौद्योगिकी के विकास को बढ़ावा दिया है, लेकिन ये भाषण मान्यता प्रणाली अभी भी सही नहीं हैं। सबसे गंभीर समस्या भौगोलिक भेदभाव है।

वाशिंगटन पोस्ट द्वारा किए गए एक हालिया अध्ययन के मुताबिक, Google और अमेज़ॅन द्वारा विकसित लोकप्रिय स्मार्ट वॉयस सहायकों ने यूएस स्थानीय लहजे की तुलना में 30% कम सटीकता के साथ गैर-यूएस स्थानीय उच्चारण को मान्यता दी है।

जैसा आईबीएम और माइक्रोसॉफ्ट जैसी कंपनियों आवाज सहायक स्विचबोर्ड कोष द्वारा त्रुटि दर को कम करने के लिए किया जाएगा। लेकिन यह पता चला है, कोष पूरी तरह से आवाज की पहचान लहजे सहायक की समस्या को हल नहीं कर सकते।

'डाटा भ्रामक है, क्योंकि डेटा मानव प्रकृति को प्रतिबिंबित,' एक्सेंचर के वैश्विक जिम्मेदारियों ऐ पर्यवेक्षण Rumman चौधरी ने कहा, 'यह वही है एल्गोरिथ्म पर सबसे अच्छा करता है:। मानव व्यवहार की विधा की तलाश'

एल्गोरिथ्म विचलन पूर्वाग्रह मशीन सीखने मॉडल या डिजाइन डेटा की डिग्री इंगित करता है। कई समाचार रिपोर्टों चेहरे की पहचान प्रणाली है (विशेष रूप से अमेजन वेब सेवाओ छवि मान्यता Rekognition) कोई छोटी पूर्वाग्रह था।

इसके अलावा, एल्गोरिदम पूर्वाग्रह अन्य क्षेत्रों में हो सकता है, जैसे भविष्यवाणी करना कि प्रतिवादी Google समाचार और अन्य ऐप्स के पीछे स्वचालित सिस्टम और सामग्री अनुशंसा एल्गोरिदम के भविष्य में होगा या नहीं।

आईबीएम, क्वालकॉम और फेसबुक समेत माइक्रोसॉफ्ट और एआई उद्योग के नेताओं ने एआई एल्गोरिदम में पूर्वाग्रहों को पहचानने और कम करने के लिए स्वचालित उपकरण विकसित किए हैं, लेकिन कुछ पहचान पहचान समस्याओं के लिए विशिष्ट समाधान प्रस्तावित कर सकते हैं।

केवल दो कंपनियां हैं जो वास्तव में समाधान के साथ आती हैं। एक स्पीचमैटिक्स है और दूसरा Nuance है।

उच्चारण अंतर की समस्या हल करें

एंटरप्राइज़ भाषण मान्यता सॉफ़्टवेयर में विशेषज्ञता रखने वाली कैम्ब्रिज टेक्नोलॉजी कंपनी स्पीचमेट्रिक्स ने 12 साल पहले बाजार पर किसी भी उत्पाद की तुलना में अधिक सटीक और व्यापक भाषा पहचान प्रणाली विकसित करने के लिए एक महत्वाकांक्षी कार्यक्रम लागू किया था।

कंपनी ने मूल रूप से सांख्यिकीय भाषा मॉडलिंग और पुनरावर्ती तंत्रिका नेटवर्क का शोध किया। इसने एक मशीन लर्निंग मॉडल विकसित किया जो मेमोरी आउटपुट अनुक्रमों को संभाल सकता है। 2014 में, इसने अपनी सांख्यिकीय भाषा मॉडलिंग के विकास में तेजी लाने के लिए एक गीगाबाइट कॉर्पस का उपयोग किया। तब से, पहला कदम उठाया गया है।

2017 में, उसने एक और मील का पत्थर लिया है: कतर कंप्यूटिंग संस्थान (क्यूसीआरआई) के सहयोग से एक अरबी भाषा रूपांतरण सेवा विकसित की।

'हमने पाया है कि हम एक आवाज पहचान प्रणाली, केवल एक ही मोड, सभी भाषाओं, कोई लहजे समस्या के लिए लागू करने के लिए सक्षम हो जाएगा विकसित करने के लिए की जरूरत है और यह ऑस्ट्रेलियाई उच्चारण सटीकता और प्रतिलेखन स्कॉटिश लहजे के रूप में उच्च पहचान करता है।' Speechmatics मुख्य कार्यकारी बेनेडिक्ट vonThüngen अधिकारी ने कहा।

जुलाई में इस साल, वे सफलतापूर्वक एक इस तरह के एक भाषण मान्यता प्रणाली ग्लोबल अंग्रेजी विकसित की है। यह 40 से अधिक देशों, आवाज डेटा के घंटे के हजारों और कई दस अरब शब्द, आवाज पाठ रूपांतरण समारोह सभी अंग्रेजी उच्चारण है।

इसके अलावा, ग्लोबल अंग्रेजी भी Speechmatic स्वचालित भाषाविद्, जो कृत्रिम बुद्धि का एक ढांचा पहचानने पैटर्न में जाना जाता भाषा का उपयोग करके एक नई भाषा के लिए आधार की भाषा सीखने के लिए है की स्थापना से अविभाज्य है।

'मान लीजिए आप एक तरफ करना चाहते हैं और अमेरिकियों, ऑस्ट्रेलियाई लोगों को बात करते हैं और यह भी विनिमय के दूसरी ओर, और अमेरिकियों कनाडा में रहते हैं, तो कनाडा के उच्चारण, देखते हैं तो वाक् पहचान प्रणाली का सबसे एक अलग के साथ इस पहचान करने के लिए मुश्किल हो सकता है इस्तेमाल किया भाषा के लहजे, लेकिन हमारी वाक् पहचान प्रणाली इस समस्या के बारे में चिंता करने की बात नहीं है। 'इयान फर्थ, कंपनी के उत्पादों Speechmatics के उपाध्यक्ष एक साक्षात्कार में कहा।

परीक्षण में, विशिष्ट लहजे बादल वाक् API और आईबीएम के बादल की पहचान करने में की तुलना में गूगल की ग्लोबल अंग्रेजी प्रदर्शन भी उत्कृष्ट। Thüngen कहा उच्च अंत के क्षेत्र में, इसकी सटीकता दर की तुलना में 55 अन्य उत्पादों के 23% भी अधिक है कि %।

Speechmatics न केवल कंपनी लहजे की पहचान की समस्या को हल करने की कोशिश कर।

बर्लिंगटन, मास में स्थित Nuance, का कहना है कि यह विभिन्न तरीकों का उपयोग करेगा ताकि यह सुनिश्चित किया जा सके कि इसकी भाषण मान्यता प्रणाली समान उच्च सटीकता के साथ लगभग 80 भाषाओं को पहचानती है।

ब्रिटेन में अपनी भाषा मॉडल में, यह प्रत्येक अद्वितीय बोली शब्द सहित आवाज और पाठ डेटा 20 विशिष्ट बोली क्षेत्र, एकत्र करता है (जैसे शब्द 'COB' का उपयोग कर के रूप में रोल के लिए संदर्भित) और उच्चारण। इसलिए, इस Nuance भाषण मान्यता प्रणाली 'हीथ्रो' के 52 विभिन्न अभिव्यक्तियों को पहचानती है।

आज, Nuance भाषण मान्यता प्रणाली एक नया विकास है। ड्रैगन पाठ को विकसित कस्टम सॉफ्टवेयर पोर्टफोलियो है, जो स्वचालित रूप से उपयोगकर्ता के उच्चारण के अनुसार कई अलग अलग बोलियों में मशीन सीखने मॉडल स्विच Nuance भाषण के एक अद्यतन संस्करण है।

पुराने संस्करण के साथ तुलना में कोई बोली स्वचालित स्विचिंग समारोह, आवाज पहचान प्रणाली अमेरिकी उच्च 16.5% से 22.5% पहचान सटीकता दक्षिणी बोली स्पेनिश उच्चारण के साथ अंग्रेजी के सही होने का नया संस्करण पहचान करने के लिए, सटीक दक्षिण पूर्व अंग्रेजी की पहचान है 17.4% की उच्च दर।

बेहतर डेटा

अंत में, उत्पन्न डेटा की कमी है। उच्च कोष की गुणवत्ता के कारण लहजे भाषण मान्यता की समस्याओं, अधिक विविध भाषा मॉडल, तो कम से कम सिद्धांत रूप में, उच्च भाषण मान्यता प्रणाली की सटीकता।

वाशिंगटन पोस्ट, Google मुखपृष्ठ बुद्धिमान आवाज सहायक संयुक्त राज्य अमेरिका के 3% की पश्चिमी भाषा मान्यता सटीकता दर की तुलना में संयुक्त राज्य अमेरिका के दक्षिणी भाषा की मान्यता सटीकता, के अध्ययन में अमेज़न इको पहचान सटीकता मिडवेस्ट भाषा 2% कम होने की है।

अमेज़ॅन के एक प्रवक्ता ने वाशिंगटन पोस्ट को बताया कि अधिक उपयोगकर्ता विभिन्न उच्चारणों में बोलते हैं, इसलिए एलेक्सा की भाषण मान्यता क्षमताओं में सुधार जारी रहेगा। और, एक बयान में, Google ने कहा कि वे अपने डेटाबेस का विस्तार करेंगे। Google सहायक की भाषण मान्यता प्रौद्योगिकी को लगातार सुधारें।

जैसे-जैसे अधिक से अधिक उपयोगकर्ता ध्वनि पहचान प्रणाली का उपयोग करते हैं, उनके कार्यों को और बढ़ाया जाएगा। बाजार अनुसंधान फर्म कैनालिस के मुताबिक, लगभग 100 मिलियन स्मार्ट वॉयस सिस्टम 201 9 तक विश्व स्तर पर बेचे जाते हैं। और, 2022 तक, लगभग 55% अमेरिकी परिवारों में एक बुद्धिमान आवाज प्रणाली होती है।

विश्वास की पूरी उम्मीद हल करने वाले समाधान की अपेक्षा न करें। 'मौजूदा तकनीकी विकास के मुताबिक, आप दुनिया भर के उपयोगकर्ताओं के लिए उच्चतम सटीकता और उपयुक्त के साथ भाषण मान्यता प्रणाली विकसित नहीं कर सकते हैं।' 'सबसे अच्छी बात यह है कि आप कर सकते हैं। यह सुनिश्चित करना है कि ये भाषण मान्यता प्रणाली उन लोगों के उच्चारण की सटीकता से पहचान कर सकें जो उनका उपयोग कर रहे हैं। '

2016 GoodChinaBrand | ICP: 12011751 | China Exports