कीवर्ड खोलना (KWS) लागू करने के लिए आवाज आधारित उपयोगकर्ता बातचीत महत्वपूर्ण है, एक अच्छा उपयोगकर्ता अनुभव सुनिश्चित करने के लिए स्मार्ट डिवाइस और उच्च सटीकता पर वास्तविक समय प्रतिक्रिया की आवश्यकता है। हाल ही में, तंत्रिका नेटवर्क वास्तुकला KWS क्योंकि पारंपरिक के साथ, एक लोकप्रिय विकल्प बन गया है भाषण प्रसंस्करण एल्गोरिदम के मुकाबले, तंत्रिका नेटवर्क की सटीकता श्रेष्ठ है।
कीवर्ड की पहचान तंत्रिका नेटवर्क पाइपलाइन
'हमेशा चालू', KWS लागू किया शक्ति बजट बहुत सीमित है। KWS आवेदन भी एक समर्पित उच्च प्रदर्शन डीएसपी या CPU पर चलाया जा सकता है, लेकिन शाखा कॉर्टेक्स-एम माइक्रोकंट्रोलर्स पर चलाने के लिए मदद कर सकते हैं और अधिक अनुकूल है रखने के लिए कारण लागत को कम करने के लिए, आर्ट कॉर्टेक्स-एम माइक्रोकंट्रोलर्स का उपयोग अक्सर अन्य कार्यों के लिए चीजों के इंटरनेट के किनारे पर किया जाता है।
हालांकि, एक माइक्रो KWS की कॉर्टेक्स- M- आधारित तंत्रिका नेटवर्क के आधार पर पर तैनात करने के लिए, हम निम्नलिखित चुनौतियों के साथ सामना कर रहे हैं: कॉर्टेक्स-एम प्रणाली के 1. सीमित स्मृति स्थान ठेठ इसका मतलब यह है उपलब्ध स्मृति के कुछ सौ केबी अप करने के लिए प्रदान करता है। , इनपुट / आउटपुट, वजन और सक्रियण सहित पूरे तंत्रिका नेटवर्क मॉडल,, हमेशा चालू, वास्तविक समय की आवश्यकताओं है कि हर तंत्रिका की सीमा बनाए रखने के लिए KWS की वजह से सीमित कंप्यूटिंग संसाधनों स्मृति के इस छोटे से सीमा के भीतर काम करना होगा। 2. नेटवर्क आपरेशन की कुल संख्या निम्न तर्क एक ठेठ तंत्रिका नेटवर्क वास्तुकला KWS निष्कर्ष पर लागू होता है है: तंत्रिका नेटवर्क (DNN) DNN मानक feedforward तंत्रिका नेटवर्क, सक्रिय परत और nonlinear • मात्रा से परतों की पूरी ढेर से जुड़ा की गहराई •। उत्पाद तंत्रिका नेटवर्क (सीएनएन) KWS DNN के मुख्य में से एक कमी के आधार पर आवाज के स्थानीय संघ, समय डोमेन सहसंबंध, आवृत्ति सहसंबंध मॉडल के लिए असंभव है। सीएनएन इनपुट कर सकते हैं समय डोमेन और आवृत्ति डोमेन सुविधाओं इमेज प्रोसेसिंग, और जैसा कि ऊपर में 2 डी घुमाव कार्रवाई निष्पादित आदेश में इस संबंध को खोजने के लिए। • बार-बार होने तंत्रिका नेटवर्क कई मॉडलिंग कार्यों में (RNN) RNN अनुक्रम उत्कृष्ट दिखा रहे हैं ऊर्जा, विशेष रूप से भाषण मान्यता, भाषा मॉडलिंग और अनुवाद में। RNN न केवल इनपुट संकेत के बीच अस्थायी संबंध लगता है, जिसे 'gating' तंत्र का उपयोग कर सकते रिश्ते की लंबाई पर निर्भर को पकड़ने में सक्षम। • घुमाव के आवर्तक तंत्रिका नेटवर्क ( CRNN) एक संकर convolutional तंत्रिका नेटवर्क सीएनएन चक्र है और RNN स्थानीय अस्थायी / स्थानिक सहसंबंध में पाया जा सकता है। CRNN शुरू करने घुमाव के मॉडल परत, RNN पीछा किया, संकेत, पूरी तरह से जुड़ा हुआ एक घने परत के बाद सांकेतिक शब्दों में बदलना। • गहराई वियोज्य घुमाव के तंत्रिका नेटवर्क (डी एस सीएनएन) हाल ही में, वियोज्य घुमाव के तंत्रिका नेटवर्क की गहराई मानक 3 डी घुमाव के आपरेशन करने के लिए प्रभावी विकल्प के रूप में सिफारिश की है, और कंप्यूटर दृष्टि के लिए कॉम्पैक्ट नेटवर्क वास्तुकला इस्तेमाल किया गया है। डी एस सीएनएन पहला प्रयोग स्वतंत्र 2 डी फिल्टर, अंजीर चैनल घुमाव के गणना में प्रत्येक सुविधा के इनपुट, और फिर बिंदु वार घुमाव का उपयोग (अर्थात 1x1-), मानक 2 डी और 3 डी घुमाव के द्वारा संयुक्त गहराई आयाम आउटपुट -1 डी बाद में विघटित किया जाता है , और कंप्यूटिंग पैरामीटर की संख्या कम हो जाता है, तो यह है कि गहरी और व्यापक वास्तुकला संभव, यहां तक कि माइक्रोकंट्रोलर संसाधन विवश डिवाइस को चलाने के लिए। कॉर्टेक्स-एम प्रोसेसर पर बंद चलाने शब्द पहचान, स्मृति के उपयोग और निष्पादन समय दो डिजाइन और इस उद्देश्य के लिए तंत्रिका नेटवर्क के अनुकूलन में सबसे महत्वपूर्ण कारक है, तो आप ध्यान में रखना चाहिए इन दो कारकों नीचे दिखाया गया है छोटे के लिए कर रहे तीन समूहों के तंत्रिका नेटवर्क की सीमा , मध्यम और बड़े कॉर्टेक्स-एम प्रणाली, एक ठेठ प्रणाली आधारित कॉर्टेक्स-एम के विन्यास।
इतनी के रूप में स्मृति और कंप्यूटिंग माइक्रोकंट्रोलर की सीमाओं को पार करने के लिए नहीं, मॉडल को समायोजित करने के लिए, एक खोज मापदंडों से अधिक किया जाना चाहिए। निम्न तालिका तंत्रिका नेटवर्क वास्तुकला से पता चलता है और संबंधित मानकों से अधिक अनुकूलित किया जाना चाहिए।
सबसे पहले, एक संपूर्ण खोज सुविधा निष्कर्षण और अति मापदंडों के तंत्रिका नेटवर्क मॉडल प्रदर्शन, और फिर खोज अंतरिक्ष, दोनों को बार-बार मार डाला संकीर्ण करने के लिए एक मैनुअल चयन करते हैं। निम्न चित्र अनुकूलतम प्रदर्शन के मॉडल के लिए प्रत्येक तंत्रिका नेटवर्क वास्तुकला और इसी स्मृति के लिए उपलब्ध को सारांशित आवश्यकताएँ और कम्प्यूटेशंस। डीएस-सीएनएन आर्किटेक्चर उच्चतम स्तर की सटीकता प्रदान करता है और काफी कम स्मृति और कम्प्यूटेशनल संसाधनों की आवश्यकता है।
STM32F746G-डिस्को विकास बोर्ड में तैनात (नीचे के रूप में दिखाया गया है) के आधार KWS कॉर्टेक्स- M7 अनुप्रयोगों, जिसमें 8 वजन DNN मॉडल और 8 सक्रियण, KWS तर्क के आपरेशन के दौरान प्रति सेकंड 10 बार मार डाला। प्रति तर्क ( स्मृति नकल सहित MFCCs निकासी की सुविधा है, DNN) प्रदर्शन कर बिजली बचाने के क्रम में लगभग 12 मिलीसेकंड लेता है, माइक्रोकंट्रोलर के शेष के लिए अनुमति देता है एक अवरोध के लिए इंतज़ार कर रहा है (डब्ल्यूएफआई) मोड। KWS पूरा आवेदन स्मृति का लगभग 70 KB का उपयोग करता है, 66 के बारे में KB से सहित सक्रियण के बारे में 1 KB, ऑडियो I / O और MFCC सुविधाओं के लिए लगभग 2 KB।
सारांश में, शाखा कॉर्टेक्स-एम प्रोसेसर, कीवर्ड मान्यता अनुप्रयोगों में उच्च सटीकता प्राप्त कर सकते हैं, जबकि स्मृति और कम्प्यूटेशनल आवश्यकताओं नेटवर्क वास्तुकला समायोजित सीमित करने के लिए। डी एस सीएनएन वास्तुकला उच्चतम सटीकता प्राप्त होती है और स्मृति और कम्प्यूटेशनल संसाधनों की आवश्यकता भी कर रहे हैं बहुत कम। संहिता, मॉडल परिभाषा और पूर्व प्रशिक्षण मॉडल github.com/ARM-software से प्राप्त किया जा सकता है। हमारी नई मशीन-लर्निंग डेवलपर साइट वन-स्टॉप संसाधन पुस्तकालय, विस्तृत उत्पाद जानकारी और ट्यूटोरियल नेटवर्क बढ़त मशीन के साथ सौदा करने में मदद करने प्रदान करता है इस ब्लॉग पर श्वेत पत्र के सामने आने वाली चुनौतियों सीखने के नेटवर्क धार: माइक्रोकंट्रोलर पर कीवर्ड मान्यता '। (हैलो धार: माइक्रोकंट्रोलर्स पर कीवर्ड खोलना), श्वेत पत्र मूल रूप कॉर्नेल विश्वविद्यालय के पुस्तकालय वेब साइट शाखा डाउनलोड करने के लिए में प्रकाशित हुआ था। श्वेत पत्र की एक प्रति, लिंक नीचे क्लिक करें। https://community.arm.com/cfs-file/__key/telligent-evolution-components-attachments/01-2142-00-00-00-01-34-26/Arm_5F00_KeywordSpotting_5F00_Whitepaper। पीडीएफ