منذ إصدار دمية الدمى جوليكس ودمى العرائس من آي بي إم ، أصبحت تقنية التعرف على الكلام تتطور باستمرار ، وبحلول نهاية عام 2018 ، يدعم مساعد Google أكثر من 30 لغة مختلفة.
قامت Qualcomm أيضاً بتطوير نظام التعرف على الكلام الذي يتعرف على الكلمات والعبارات بنسبة دقة تصل إلى 95٪ ، بالإضافة إلى ذلك ، فإن خدمة الصوت الذكي من Microsoft أكثر دقة وكفاءة من خدمات الاتصال اليدوي.
ومع ذلك ، على الرغم من أن التعلم الآلي جعل تطوير تكنولوجيا التعرف على الكلام مرتفعًا ، فإن أنظمة التعرف على الكلام هذه لا تزال غير مثالية ، وأخطر مشكلة هي التمييز الجغرافي.
ووفقًا لدراسة حديثة أجرتها صحيفة واشنطن بوست ، فإن مساعدي الصوت الذكي الشهيرين الذين طورتهم غوغل وأمازون يدركون اللكنات المحلية غير الأمريكية بدقة أقل بنسبة 30٪ من اللهجات المحلية الأمريكية.
ستستخدم شركات مثل IBM و Microsoft لوحة المفاتيح Switchboard corpus لتخفيض معدل الخطأ للمساعدين الصوتيين ، ولكن تبين أن الجسم لا يمكنه حل مشكلة التعرف على الأصوات لمساعدي الصوت بشكل كامل.
"البيانات هي مربكة ، لأن البيانات تعكس الطبيعة البشرية" ، وقال مسؤول Accumer المسؤولية الدولية AI المشرف رمان تشودري ، "هذا هو المكان الذي تتفوق الخوارزمية: البحث عن أنماط السلوك البشري".
يشير التحيز الخوارزمي إلى الدرجة التي تكون فيها نماذج التعلم الآلي متحيزة ضد البيانات أو التصميم ، وقد ولدت العديد من التقارير الإخبارية تحيزًا كبيرًا على أنظمة التعرف على الوجه (خاصةً التعرف على الصور وإعادة التعرف على خدمات أمازون على الويب).
علاوة على ذلك ، يمكن أن يحدث تحيز الخوارزمية في مناطق أخرى ، مثل التنبؤ بما إذا كان المدعى عليه سيكون في المستقبل للأنظمة الآلية وخوارزميات توصية المحتوى وراء أخبار Google والتطبيقات الأخرى.
طور قادة صناعة Microsoft و AI بما في ذلك IBM و Qualcomm و Facebook أدوات تلقائية للكشف عن التحيز وتقليله في خوارزميات الذكاء الاصطناعي ، ولكن القليل منها يمكن أن يقترح حلولًا محددة لمشكلات تحديد الهوية.
هناك شركتان فقط تقدمان حلاً ، أحدهما Speechmatics والآخر هو Nuance.
حل مشكلة الفجوة اللكنة
نفذت Speechmetrics ، وهي شركة تكنولوجيا كامبردج متخصصة في برامج التعرف على الكلام في المؤسسات ، برنامجًا طموحًا منذ 12 عامًا لتطوير نظام التعرف على اللغة أكثر دقة وشمولية من أي منتج في السوق.
قامت الشركة في البداية بدراسة نمذجة اللغات الإحصائية والشبكات العصبية المتكررة ، حيث قامت بتطوير نموذج التعلم الآلي الذي يمكنه التعامل مع تسلسل مخرجات الذاكرة ، وفي عام 2014 ، استخدمت مجموعة من الجيجابايت لتسريع تطوير نمذجتها اللغوية الإحصائية. منذ ذلك الحين ، تم اتخاذ الخطوة الأولى.
في عام 2017 ، اتخذت علامة بارزة أخرى: تم تطوير خدمة تحويل اللغة العربية بالتعاون مع معهد قطر للحاسبات (QCRI).
"لقد وجدنا أننا بحاجة إلى تطوير نظام التعرف على الكلام الذي يمكن تطبيقه على جميع اللغات في وضع واحد ، ولم يعد هناك مشكلة في تحديد الهوية ، كما أنه يعترف بدقة اللكنة الأسترالية عالية كنبرة اسكتلندية النسخية." Speechmatics الرئيس التنفيذي ضابط بنديكت فون ثونجين قال.
في يوليو من هذا العام ، نجحوا في تطوير نظام التعرف على الكلام المعروف باسم Global English ، حيث يحتوي على آلاف الساعات من البيانات الصوتية وعشرات المليارات من الكلمات في أكثر من 40 دولة ، ويدعم التحويل الصوتي والنصري لجميع درجات اللغة الإنجليزية.
بالإضافة إلى ذلك ، لا يمكن فصل إنشاء الإنجليزية العالمية عن Speechmatic's Automatic Linguist ، وهو إطار ذكاء اصطناعي يتعلم الأساس اللغوي للغة جديدة باستخدام أنماط معترف بها بلغات معروفة.
"لنفترض أنك تريد التحدث مع الأمريكيين على الجانب الآخر ، وعليك التواصل مع الأستراليين على الجانب الآخر ، وهذا الأمريكي اعتاد العيش في كندا ، لذلك توجد لهجة كندية ، ومعظم أنظمة التعرف على الكلام ستواجه صعوبة في التعرف على هذا الاختلاف. لغة اللكنة ، ولكن نظام التعرف على الكلام لدينا لا داعي للقلق حول هذه المشكلة على الإطلاق. 'Ian Firth ، نائب رئيس المنتجات في Speechmatics ، قال في مقابلة.
في الاختبار ، حققت جلوبال إنجليش أداءً أفضل من Google Cloud Cleech API و IBM's Cloud في التعرف على اللهجات الخاصة ، فقال Thüngen إنه في المجال المتطور ، فإن دقته أعلى من غيرها من المنتجات بنسبة 23٪ إلى 55. ٪.
Speechmatics ليست الشركة الوحيدة التي تريد حل مشكلة تحديد اللهجة.
وتقول نيوانس ، ومقرها بيرلينجتون ، ماساتشوستس ، إنها ستستخدم مجموعة متنوعة من الأساليب لضمان أن نظام التعرف على الكلام الخاص بها يعترف بحوالي 80 لغة بنفس الدقة العالية.
في نموذج اللغة الإنجليزية الخاص بها ، يقوم بجمع بيانات الكلام والنص ل 20 مجالًا لهجة محددة ، بما في ذلك الكلمات الفريدة لكل لهجة (مثل كلمة "cob" المحددة للففة الخبز) ونطقها. يتعرف نظام التعرف على الكلام على 52 تعبيرًا مختلفًا لـ "هيثرو".
في الوقت الحاضر ، يتمتع نظام التعرف على الكلام Nuance بتطور جديد ، الإصدار المحدث من Dragon هو مزيج من برامج تحويل النص والكلام المخصصة التي طورتها Nuance ، حيث يمكن تحويل نموذج التعلم الآلي الخاص به تلقائيًا إلى عدة لهجات مختلفة وفقًا لهجة المستخدم.
مقارنة بالنسخة القديمة بدون وظيفة التحويل التلقائي للهجة ، فإن الإصدار الجديد من نظام التعرف على الكلام يتعرف على دقة اللغة الإنجليزية بلكنة إسبانية بنسبة 22.5٪ ، ودقة تعريف لهجة أمريكا الجنوبية بنسبة 16.5٪ ، والتي تحدد دقة اللغة الإنجليزية في جنوب شرق آسيا. معدل أعلى بنسبة 17.4 ٪.
كلما زادت البيانات ، كان ذلك أفضل
في التحليل النهائي ، تتجلى نبرة التعرّف على الكلام بسبب عدم كفاية البيانات ، فكلما ارتفعت جودة مجموعة النصوص ، ازداد تنوع نموذج اللغة ، لذا من الناحية النظرية على الأقل ، تكون دقة نظام التعرف على الكلام أعلى.
في دراسة الواشنطن بوست ، يتعرف Google Home Intelligent Voice Assistant على دقة لغة أمريكا الجنوبية بمعدل أقل بنسبة 3٪ من دقة تحديد لغة الأمريكيين الغربيين ، حيث يتعرف إكو على لغة الغرب الأوسط الأمريكية بدقة أقل بنسبة 2٪.
وقالت متحدثة باسم أمازون لصحيفة واشنطن بوست إنه مع زيادة عدد المستخدمين الذين يتحدثون بلهجات مختلفة ، ستستمر قدرات "ألكسا" في التعرف على الكلام ، وفي بيان ، قالت جوجل إنها ستوسع قواعد بياناتها. باستمرار تحسين تقنية التعرف على الكلام مساعد Google.
ومع ازدياد عدد المستخدمين الذين يستخدمون أنظمة التعرف على الصوت ، سيتم تحسين وظائفهم ، فوفقًا لشركة أبحاث السوق Canalys ، يتم بيع ما يقرب من 100 مليون نظام صوتي عالمي على مستوى العالم بحلول عام 2019. وبحلول عام 2022 ، حوالي 55 ٪ من الأسر الأمريكية لديها نظام صوت ذكي.
لا تتوقع حلًا يحل المشكلة تمامًا. "وفقًا للتطور التكنولوجي الحالي ، لا يمكنك تطوير نظام التعرف على الكلام بأعلى دقة ومناسبة للمستخدمين في جميع أنحاء العالم" ، كما يقول فيث "أفضل شيء يمكنك القيام به. هو التأكد من أن أنظمة التعرف على الكلام هذه يمكن أن تحدد بدقة لهجات أولئك الذين يستخدمونها.