في الرؤية الحاسوبية ، مثل Rogerio Feris ، مدير رؤية الكمبيوتر والوسائط المتعددة في IBM Research ، يتمثل التحدي الأكبر في كيفية "جعل التحليل البصري أكثر كفاءة" ، وعلى وجه الخصوص ، لا تزال منظمة العفو الدولية في مراحلها الأولى من التطوير وتتطلب الأفكار والرؤية طويلة الأجل والمزيد من الاستثمار في البحث والتطوير من قبل الأكاديميين ومؤسسات البحث.
2018 السنوي الرؤية الحاسوب ونمط ورشة عمل الاعتراف (مؤتمر الرؤية الحاسوب والتعرف على الأنماط، CVPR) مجلس البحوث IBM في سولت لايك سيتي (سولت ليك سيتي)، الذي عقد هذا الأسبوع نشر ورقتين عن برنامج منظمة العفو الدولية وتكنولوجيا الأجهزة برعاية CVPR مؤسسة Computer Vision و IEEE Computer Society وتعتبر واحدة من أكثر ندوات تكنولوجيا رؤية الكمبيوتر التنافسية.
الجزء الصعب AI، أبحاث IBM وتعزيز مجسمة (ستيريو للرؤية) النظام، سوف تكون مصدر إلهام من خلال الشبكة العصبية للارتفاع الدماغ (ارتفاعه العصبية الشبكة) التكنولوجيا لاسترداد البيانات (استشعار) و تطوير ومعالجة البيانات، وتصميم رقاقة تستخدم IBM نفسه ── TureNorth هي بنية معالج غير فون نيومان (غير فون نيومان)، وتطوير صناعة زوج ── السويسري iniLabs الأحداث الدليل (مدفوعة الحدث ) الكاميرا
بنية TrueNorth الخاصة بشركة IBM (المصدر: IBM)
في قسم برمجيات الذكاء الاصطناعي ، تتناول ورقة بحث IBM عن "Blockdrop" ، وهي خطوة رئيسية تُعتبر لتقليل المبلغ الإجمالي للحساب المطلوب للشبكات العميقة المتبقية ، وقد أوضح فيريس أن الورقتين أعلاه من حل نفس المشكلة من منظورين مختلفين - كفاءة التحليل البصري.
قال فيريس إنه عندما يريد شخص ما عبور الطريق ، من المتوقع أن تحقق السيارة ذاتية القيادة "استنتاجًا فوريًا" ؛ على الرغم من أن دقة التعرف على الصور أمر مهم جدًا ، ولكن كم من الوقت يستغرقه الوصول إلى استنتاجات لاستخلاص النتائج وتحديد ما هو عليه ، اختباره النهائي في تطبيقات العالم الحقيقي.
ما هو "Blockdrop"؟
الشبكة المتخلفة التي أصبحت الفائز في ImageNet 2015 ، أطلقت عاصفة في مجتمع تكنولوجيا رؤية الكمبيوتر ؛ وقد أثبتت هذه التقنية أنها يمكن أن تقدم نتائج تمييز ممتازة لأنها تستطيع تدريب المئات أو حتى المئات من الشبكات العصبية. ومع ذلك ، يشير فيريس إلى: "تطبيق العملية ذات الحجم الواحد التي تتطلبها الشبكة المتبقية على جميع التصوير غير فعال للغاية" ، أوضح أنه إذا كان هناك كلب أمام خلفية بيضاء ، فسيكون في مشهد شارع مزدحم في المناطق الحضرية. أسهل لتحديد.
ولهذا السبب ، طور IBM Research BlockDrop ، وهي طريقة لمعرفة أي كتل (بما في ذلك الطبقات المتعددة) في الشبكة المتبقية للقيام بمهام الاستدلال ديناميكيًا ؛ وأشار Feris إلى: 'إن الهدف من هذه الطريقة هو تقليل الحوسبة بشكل صحيح دون فقدان دقة التوقعات.
تعليمات BlockDrop (المصدر: IBM)
تدعي شركة IBM أن BlockDrop يمكن أن تزيد سرعة التعرف بمعدل 20٪ أثناء الاختبار ، وأحيانًا تصل إلى 36٪ ، دون التضحية بدقة الشبكة المتبقية التي تم تحقيقها في مجموعة بيانات ImagNet ، وقال Feris إن دراسة IBM كانت في عام 2017. في الصيف مع جامعة تكساس وجامعة ميريلاند ، ستقوم الشركة بإطلاق BlockDrop إلى مجتمع المصدر المفتوح.
تقنيات Neuromorphic لتطبيقات رؤية ستيريو
من حيث المعدات والبحوث IBM تهدف إلى استخدام نظام الرؤية ارتفاع ستيريو الشبكة العصبية، يمثل الشركة، والصناعة التقليدية الآن لاستخدام اثنين (منع المعلومات) لإنشاء الكاميرا المجسمة، ولكن لم يعهده ذلك تكنولوجيا neuromorphic. بينما توفر الكاميرات التقليدية صورة مجسمة ليست مستحيلة، ولكن تتطلب عالية الوضوح معالجة الإشارات الفيديو، مثل ارتفاع النطاق الديناميكي (HDR) والتصوير، وعالية الدقة عملية المعايرة التلقائية وما شابه ذلك.
ووصف الباحثون IBM بعد الكسندر Andreopoulos في ورقة، وهو نظام تم تطويره عن طريق استخدام حدثين توجيه iniLabs الكاميرا (وتسمى أيضا دينامية استشعار الرؤية -DVSe)، لقطات رقاقة لمجموعة IBM للTrueNorth الأشياء تتحرك بسرعة استخراج العمق.
يتمثل هدف IBM في تقليل استهلاك الطاقة والكمون المطلوب بشكل كبير للحصول على صور مجسّمة ، وبعد تلقي مدخلاً حيًا (والذي أدى إلى تقليل كمية البيانات بشكل كبير) ، يستخدم النظام جهازاً عصبيًا لـ IBM لإعادة بناء الصور ثلاثية الأبعاد. تقدير الفرق بين الصور من اثنين من DVSe وتحديد موقع الكائنات في الفضاء 3D عن طريق التثليث.
صور ستيريو Neuromorphic (المصدر: IBM)
استرجاع البيانات ومعالجتها
تستخدم شركة فرنسية Prophesee شركة neuromorphology لالتقاط البيانات وتقليل كمية البيانات التي تجمعها أجهزة الاستشعار ، ولا تعتمد تقنية أجهزة الاستشعار في الشركة على الإطارات ، ولكنها تبسط وتنشئ بيانات مناسبة لاستخدام الماكينة. أهداف التصميم: في مقابلة سابقة مع EE Times ، قال Prophesee أن هذا يمكن أن يقلل بشكل كبير من عبء البيانات ويجب أن يسمح للسيارة باتخاذ قرارات فورية تقريبًا.
ومع ذلك ، فإن الجيل الجديد من نظام الرؤية المجسامي لشركة IBM لا يستخدم تقنية دماغ الإنسان لاسترجاع البيانات فحسب ، ولكن أيضًا لمعالجة البيانات لإعادة بناء الصور المجسمة ؛ وقال أندريوبولوس إن النظام لديه أحد أكبر الإنجازات التي تتم برمجتها بواسطة TrueNorth. التنفيذ الفعال لمختلف "الإجراءات الفرعية" الضرورية من أجل "رؤية مجهرية للشبكة العصبية الشبكية" ، وأضافت أن بنية رقاقة TrueNorth تستهلك طاقة أقل من الأنظمة التقليدية ، والتي ستكون مفيدة لأنظمة القيادة الآلية. التصميم.
وبالمثل ، فإن استخدام زوج من كاميرات DVS (غير مؤطرة) يمكنه أيضًا تقليل كمية البيانات واستهلاك الطاقة ، وزيادة السرعة ، وتقليل وقت الاستجابة ، وتوفير نطاق ديناميكي أفضل ، وقالت IBM إنها عناصر أساسية في تصميم النظام الفوري. عندما سئل عن مزايا نظام TrueNorth الجديد ، قال Andreopoulos إن لديه قوة مائتي مرة أكثر لكل خريطة تباين بكسل من الأنظمة الأكثر تقدما باستخدام معالجات CPU / GPU التقليدية أو FPGA. تحسن.
باستخدام مدخلات قائمة على الحدث ، تتم معالجة بيانات الصور في الوقت الفعلي التي يتم إدخالها في نظام IBM مع 9 شرائح TrueNorth ، والتي يمكنها حساب 400 خريطة تفاوت في الثانية مع تأخير يبلغ 11 مللي ثانية فقط (مللي ثانية ).وأشارت IBM في الورقة إلى أن الاقتراض من خلال المقايضات المحددة ، يمكن للنظام زيادة المعدل إلى 2000 خريطة تفاوت في الثانية.
؟ رقائق TrueNorth باستخدام نظام الرؤية ستيريو عندما يمكن تسويقها قال Andreopoulos: "لا يمكننا الكشف عن نقطة في الوقت المناسب، إلا أن أقول أننا قد تم اختبارها وبرمجتها بنجاح رقاقة على التعامل بفعالية مع خريطة التفاوت، هو دليل على مرحلة مفهوم".
التصنيف: جوديث تشينج