عندما تصادف اللهجة الذكاء الاصطناعي ، هل يهزم المساعد الصوتي الذكي باللهجة؟@goodchinabrand.com

منذ إصدار دمية الدمى جوليكس ودمى العرائس من آي بي إم ، أصبحت تقنية التعرف على الكلام تتطور باستمرار ، وبحلول نهاية عام 2018 ، يدعم مساعد Google أكثر من 30 لغة مختلفة.

قامت Qualcomm أيضاً بتطوير نظام التعرف على الكلام الذي يتعرف على الكلمات والعبارات بنسبة دقة تصل إلى 95٪ ، بالإضافة إلى ذلك ، فإن خدمة الصوت الذكي من Microsoft أكثر دقة وكفاءة من خدمات الاتصال اليدوي.

ومع ذلك ، على الرغم من أن التعلم الآلي جعل تطوير تكنولوجيا التعرف على الكلام مرتفعًا ، فإن أنظمة التعرف على الكلام هذه لا تزال غير مثالية ، وأخطر مشكلة هي التمييز الجغرافي.

ووفقًا لدراسة حديثة أجرتها صحيفة واشنطن بوست ، فإن مساعدي الصوت الذكي الشهيرين الذين طورتهم غوغل وأمازون يدركون اللكنات المحلية غير الأمريكية بدقة أقل بنسبة 30٪ من اللهجات المحلية الأمريكية.

ستستخدم شركات مثل IBM و Microsoft لوحة المفاتيح Switchboard corpus لتخفيض معدل الخطأ للمساعدين الصوتيين ، ولكن تبين أن الجسم لا يمكنه حل مشكلة التعرف على الأصوات لمساعدي الصوت بشكل كامل.

"البيانات هي مربكة ، لأن البيانات تعكس الطبيعة البشرية" ، وقال مسؤول Accumer المسؤولية الدولية AI المشرف رمان تشودري ، "هذا هو المكان الذي تتفوق الخوارزمية: البحث عن أنماط السلوك البشري".

يشير التحيز الخوارزمي إلى الدرجة التي تكون فيها نماذج التعلم الآلي متحيزة ضد البيانات أو التصميم ، وقد ولدت العديد من التقارير الإخبارية تحيزًا كبيرًا على أنظمة التعرف على الوجه (خاصةً التعرف على الصور وإعادة التعرف على خدمات أمازون على الويب).

علاوة على ذلك ، يمكن أن يحدث تحيز الخوارزمية في مناطق أخرى ، مثل التنبؤ بما إذا كان المدعى عليه سيكون في المستقبل للأنظمة الآلية وخوارزميات توصية المحتوى وراء أخبار Google والتطبيقات الأخرى.

طور قادة صناعة Microsoft و AI بما في ذلك IBM و Qualcomm و Facebook أدوات تلقائية للكشف عن التحيز وتقليله في خوارزميات الذكاء الاصطناعي ، ولكن القليل منها يمكن أن يقترح حلولًا محددة لمشكلات تحديد الهوية.

هناك شركتان فقط تقدمان حلاً ، أحدهما Speechmatics والآخر هو Nuance.

حل مشكلة الفجوة اللكنة

نفذت Speechmetrics ، وهي شركة تكنولوجيا كامبردج متخصصة في برامج التعرف على الكلام في المؤسسات ، برنامجًا طموحًا منذ 12 عامًا لتطوير نظام التعرف على اللغة أكثر دقة وشمولية من أي منتج في السوق.

قامت الشركة في البداية بدراسة نمذجة اللغات الإحصائية والشبكات العصبية المتكررة ، حيث قامت بتطوير نموذج التعلم الآلي الذي يمكنه التعامل مع تسلسل مخرجات الذاكرة ، وفي عام 2014 ، استخدمت مجموعة من الجيجابايت لتسريع تطوير نمذجتها اللغوية الإحصائية. منذ ذلك الحين ، تم اتخاذ الخطوة الأولى.

في عام 2017 ، اتخذت علامة بارزة أخرى: تم تطوير خدمة تحويل اللغة العربية بالتعاون مع معهد قطر للحاسبات (QCRI).

"لقد وجدنا أننا بحاجة إلى تطوير نظام التعرف على الكلام الذي يمكن تطبيقه على جميع اللغات في وضع واحد ، ولم يعد هناك مشكلة في تحديد الهوية ، كما أنه يعترف بدقة اللكنة الأسترالية عالية كنبرة اسكتلندية النسخية." Speechmatics الرئيس التنفيذي ضابط بنديكت فون ثونجين قال.

في يوليو من هذا العام ، نجحوا في تطوير نظام التعرف على الكلام المعروف باسم Global English ، حيث يحتوي على آلاف الساعات من البيانات الصوتية وعشرات المليارات من الكلمات في أكثر من 40 دولة ، ويدعم التحويل الصوتي والنصري لجميع درجات اللغة الإنجليزية.

بالإضافة إلى ذلك ، لا يمكن فصل إنشاء الإنجليزية العالمية عن Speechmatic's Automatic Linguist ، وهو إطار ذكاء اصطناعي يتعلم الأساس اللغوي للغة جديدة باستخدام أنماط معترف بها بلغات معروفة.

"لنفترض أنك تريد التحدث مع الأمريكيين على الجانب الآخر ، وعليك التواصل مع الأستراليين على الجانب الآخر ، وهذا الأمريكي اعتاد العيش في كندا ، لذلك توجد لهجة كندية ، ومعظم أنظمة التعرف على الكلام ستواجه صعوبة في التعرف على هذا الاختلاف. لغة اللكنة ، ولكن نظام التعرف على الكلام لدينا لا داعي للقلق حول هذه المشكلة على الإطلاق. 'Ian Firth ، نائب رئيس المنتجات في Speechmatics ، قال في مقابلة.

في الاختبار ، حققت جلوبال إنجليش أداءً أفضل من Google Cloud Cleech API و IBM's Cloud في التعرف على اللهجات الخاصة ، فقال Thüngen إنه في المجال المتطور ، فإن دقته أعلى من غيرها من المنتجات بنسبة 23٪ إلى 55. ٪.

Speechmatics ليست الشركة الوحيدة التي تريد حل مشكلة تحديد اللهجة.

وتقول نيوانس ، ومقرها بيرلينجتون ، ماساتشوستس ، إنها ستستخدم مجموعة متنوعة من الأساليب لضمان أن نظام التعرف على الكلام الخاص بها يعترف بحوالي 80 لغة بنفس الدقة العالية.

في نموذج اللغة الإنجليزية الخاص بها ، يقوم بجمع بيانات الكلام والنص ل 20 مجالًا لهجة محددة ، بما في ذلك الكلمات الفريدة لكل لهجة (مثل كلمة "cob" المحددة للففة الخبز) ونطقها. يتعرف نظام التعرف على الكلام على 52 تعبيرًا مختلفًا لـ "هيثرو".

في الوقت الحاضر ، يتمتع نظام التعرف على الكلام Nuance بتطور جديد ، الإصدار المحدث من Dragon هو مزيج من برامج تحويل النص والكلام المخصصة التي طورتها Nuance ، حيث يمكن تحويل نموذج التعلم الآلي الخاص به تلقائيًا إلى عدة لهجات مختلفة وفقًا لهجة المستخدم.

مقارنة بالنسخة القديمة بدون وظيفة التحويل التلقائي للهجة ، فإن الإصدار الجديد من نظام التعرف على الكلام يتعرف على دقة اللغة الإنجليزية بلكنة إسبانية بنسبة 22.5٪ ، ودقة تعريف لهجة أمريكا الجنوبية بنسبة 16.5٪ ، والتي تحدد دقة اللغة الإنجليزية في جنوب شرق آسيا. معدل أعلى بنسبة 17.4 ٪.

كلما زادت البيانات ، كان ذلك أفضل

في التحليل النهائي ، تتجلى نبرة التعرّف على الكلام بسبب عدم كفاية البيانات ، فكلما ارتفعت جودة مجموعة النصوص ، ازداد تنوع نموذج اللغة ، لذا من الناحية النظرية على الأقل ، تكون دقة نظام التعرف على الكلام أعلى.

في دراسة الواشنطن بوست ، يتعرف Google Home Intelligent Voice Assistant على دقة لغة أمريكا الجنوبية بمعدل أقل بنسبة 3٪ من دقة تحديد لغة الأمريكيين الغربيين ، حيث يتعرف إكو على لغة الغرب الأوسط الأمريكية بدقة أقل بنسبة 2٪.

وقالت متحدثة باسم أمازون لصحيفة واشنطن بوست إنه مع زيادة عدد المستخدمين الذين يتحدثون بلهجات مختلفة ، ستستمر قدرات "ألكسا" في التعرف على الكلام ، وفي بيان ، قالت جوجل إنها ستوسع قواعد بياناتها. باستمرار تحسين تقنية التعرف على الكلام مساعد Google.

ومع ازدياد عدد المستخدمين الذين يستخدمون أنظمة التعرف على الصوت ، سيتم تحسين وظائفهم ، فوفقًا لشركة أبحاث السوق Canalys ، يتم بيع ما يقرب من 100 مليون نظام صوتي عالمي على مستوى العالم بحلول عام 2019. وبحلول عام 2022 ، حوالي 55 ٪ من الأسر الأمريكية لديها نظام صوت ذكي.

لا تتوقع حلًا يحل المشكلة تمامًا. "وفقًا للتطور التكنولوجي الحالي ، لا يمكنك تطوير نظام التعرف على الكلام بأعلى دقة ومناسبة للمستخدمين في جميع أنحاء العالم" ، كما يقول فيث "أفضل شيء يمكنك القيام به. هو التأكد من أن أنظمة التعرف على الكلام هذه يمكن أن تحدد بدقة لهجات أولئك الذين يستخدمونها.