
التعرف على الكلمات الرئيسية (كوس) أمر بالغ الأهمية لتمكين التفاعل القائم على الصوت على المستخدمين على الأجهزة الذكية ويتطلب الاستجابة في الوقت الحقيقي ودقة عالية من أجل ضمان انطباع جيد للمستخدم في الآونة الأخيرة، أصبحت الشبكات العصبية خيارا شعبيا لأبنية كوز لأنه، على عكس التقليدية مقارنة مع خوارزميات معالجة الكلام، ودقة الشبكات العصبية متفوقة.

الكلمات الرئيسية خط أنابيب الشبكة العصبية
تطبيقات كوس لديها ميزانية طاقة محدودة جدا بسبب "دائما على". على الرغم من أن تطبيقات كوس يمكن أن تعمل أيضا على دسبس مخصصة أو وحدات المعالجة المركزية عالية الأداء، فهي أكثر ملاءمة للعمل على ميكروكنترولر الذراع اللحاء- M ومفيدة لتقليل التكلفة، وغالبا ما تستخدم ميكروكنترولر الذراع اللحاء- M على حافة إنترنت الأشياء لمهام أخرى.
ومع ذلك، لنشر على متحكم على أساس الشبكة العصبية القائمة على اللحاء-M-من KWS، نحن نواجه التحديات التالية: 1. محدودية ذاكرة نموذجية من نظام اللحاء-M توفر ما يصل إلى بضع مئات KB من الذاكرة المتوفرة وهذا يعني. ، كامل نموذج الشبكة العصبية، بما في ذلك الإدخال / الإخراج، والوزن والتنشيط، يجب أن تعمل ضمن هذا النطاق صغير من الذاكرة. 2. موارد الحوسبة محدودة بسبب KWS للحفاظ دائما على المتطلبات في الوقت الحقيقي التي تحد من كل عصب العدد الإجمالي للتشغيل الشبكة هو ينطبق المنطق التالية لنموذجي العصبية بنية الشبكة KWS الاستدلال: • عمق الشبكة العصبية (DNN) DNN feedforward معيار الشبكة العصبية، متصلا كومة كاملة من طبقات من الطبقة النشطة وغير الخطية • حجم. واحدة من العيوب الرئيسية في كنن دن كنس مقرها هو عدم قدرتها على نموذج الارتباطات المحلية والزمانية، والتردد المجال في وظائف الكلام، و كنن نماذج الإدخال الزمني والتردد ميزات كما معالجة الصور، وإجراء عمليات الثني 2D على ذلك للعثور على هذا الارتباط • الشبكة العصبية الدائرية (رن) وقد أظهرت رن الأداء الممتاز في العديد من المهام النمذجة تسلسل على وجه الخصوص، في التعرف على الكلام، ونمذجة اللغة والترجمة، رنيس لا يمكن فقط الكشف عن العلاقة الزمنية المجال بين إشارات الإدخال ولكن أيضا التقاط التبعيات على المدى الطويل باستخدام آلية 'بوابات' • التالفية الشبكات العصبية المتكررة CRNN) هو التلافيف الشبكة العصبية دورة CNN الهجينة وRNN يمكن العثور عليها في الزماني / المكاني الارتباط المحلي. CRNN تبدأ طبقة نموذج الإلتواء، تليها RNN، ترميز إشارة، تليها طبقة كثيفة مرتبطة ارتباطا كاملا. • عمق في الآونة الأخيرة، فمن المستحسن فصل التفاف الشبكة العصبية (DS-CNN) عمق انفصال شبكة التفاف العصبية كبدائل فعالة لتشغيل 3D التفاف القياسية، واستخدمت هندسة الشبكات المدمجة لرؤية الكمبيوتر. DS-CNN الاستخدام لأول مرة مرشح مستقل 2D، وإدخال كل ميزة في FIG حساب قناة الالتواء، ومن ثم استخدام التفاف الحكيمة نقطة (أي 1x1-)، إخراج البعد العمق عن طريق الجمع بين 2D القياسية والإلتواء 3D تتحلل إلى 1D لاحق ، يتم تقليل عدد من المعلمات والعمليات، مما يجعل معمارية أعمق وأوسع ممكن، حتى في أجهزة متحكم الموارد المحدودة تشغيل قبالة على اللحاء- M المعالجات عندما يتم استخدام التعرف على الكلمات، استخدام الذاكرة ووقت التنفيذ هما أهم العوامل التي يجب أن تؤخذ في الاعتبار عند تصميم وتحسين الشبكة العصبية لهذا الغرض.المجموعات الثلاث من الحدود للشبكات العصبية هو مبين أدناه هي صغيرة ، متوسطة وكبيرة أنظمة اللحاء- M، على أساس نموذجي تكوين النظام اللحاء- M.

لضبط النموذج، حتى لا يتجاوز حدود الذاكرة ومتحكم الحوسبة، لا بد من إجراء بحث على المعلمات. ويبين الجدول التالي هندسة الشبكات العصبية ويجب أن يكون الأمثل المعلمات المقابلة قد انتهت.

أولا، إجراء استخراج ميزة البحث الشامل ونموذج الشبكة العصبية من المعلمات المفرط، ومن ثم إجراء اختيار يدوي لتضييق مساحة البحث، سواء المنفذة مرارا وتكرارا. يلخص الشكل التالي للكل هندسة الشبكات العصبية لنموذج الأداء الأمثل والذاكرة المقابلة المتطلبات والحسابات: توفر الهندسة المعمارية دس-كنن أعلى مستوى من الدقة وتتطلب ذاكرة أقل بكثير والموارد الحاسوبية.

تطبيقات KWS اللحاء-M7 المنتشرة في مجلس التنمية STM32F746G-DISCO (كما هو موضح أدناه) على أساس، تحتوي على 8 الوزن DNN نموذج و 8 التنشيط، تنفيذ KWS 10 مرة في الثانية الواحدة خلال عملية التفكير. لكل المنطق ( بما في ذلك نسخ الذاكرة، MFCCs ميزة الاستخراج، وأداء DNN) يستغرق حوالي 12 ميلي ثانية من أجل توفير الطاقة، والسماح للبقية متحكم ينتظر مقاطعة (يستخدم WFI) واسطة. KWS تطبيق كامل حوالي 70 كيلو بايت من الذاكرة، بما في ذلك من حوالي 66 KB حوالي 1 كيلوبايت للتفعيل، حوالي 2 كيلوبايت ل I / O الصوت و مفك الميزات.

وباختصار، يمكن ذراع اللحاء-M معالج تحقيق دقة عالية في تطبيقات التعرف الكلمات الرئيسية، في حين أن الذاكرة والمتطلبات الحسابية للحد من ضبط بنية الشبكة وتوفر DS-CNN العمارة أعلى دقة، وموارد الذاكرة والحسابية المطلوبة هي أيضا كثيرا أقل رمز، ويمكن الحصول على تعريف نموذج ونموذج ما قبل التدريب من github.com/ARM-software. يوفر لنا الموقع الجديد المطور للتعلم آلة مكتبة الموارد وقفة واحدة، معلومات مفصلة عن المنتج والبرامج التعليمية للمساعدة في التعامل مع آلة حافة الشبكة التحديات التي تواجه رقة بيضاء على هذا بلوق تعلم "حافة الشبكة: الاعتراف الكلمة على متحكم". (مرحبا حافة: الإكتشاف الكلمة على ميكروكنترولر)، تم نشر ورقة بيضاء أصلا في موقع على شبكة الإنترنت مكتبة جامعة كورنيل لتحميل الذراع. نسخة من ورقة بيضاء، يرجى الضغط على الرابط أدناه. https://community.arm.com/cfs-file/__key/telligent-evolution-components-attachments/01-2142-00-00-00-01-34-26/Arm_5F00_KeywordSpotting_5F00_Whitepaper. قوات الدفاع الشعبي