آئی بی ایم کے شوبوکس اور ورلڈس ونڈر گڑیا جولی گڑیا کی رہائی کے بعد سے، تقریر کی شناخت کی ٹیکنالوجی مسلسل جاری رہی ہے. 2018 کے آخر میں، Google اسسٹنٹ 30 سے زیادہ مختلف زبانوں کی حمایت کرتا ہے.
Qualcomm نے ایک تقریر کی شناختی نظام کو بھی تیار کیا ہے جو الفاظ اور جملے کو درستگی کی شرح میں 95٪ کی منظوری دیتے ہیں. اس کے علاوہ، مائیکروسافٹ کی ذہین آواز کی خدمت دستی کال خدمات سے زیادہ درست اور موثر ہے.
تاہم، اگرچہ مشین سیکھنے نے تقریر کی شناخت ٹیکنالوجی کی ترقی کی ترقی کی ہے، ان تقریر کی شناختی نظام ابھی تک کامل نہیں ہیں. سب سے زیادہ سنگین مسئلہ جغرافیای امتیازی سلوک ہے.
واشنگٹن پوسٹ کے ایک حالیہ مطالعہ کے مطابق، گوگل کی طرف سے تیار مقبول سمارٹ آواز کے معاونین اور ایمیزون امریکی مقامی تلفظوں کے مقابلے میں 30٪ کم درستگی کے ساتھ غیر امریکی مقامی تلفظ کو تسلیم کرتے ہیں.
IBM اور مائیکروسافٹ جیسی کمپنیوں آواز اسسٹنٹ سوئچ کارپس طرف کی خرابی کی شرح کم کرنے کے لئے ہو جائے گا کی طرح. لیکن یہ باہر کر دیتا ہے، فنڈز کو مکمل طور پر آواز کی شناخت تلفظ اسسٹنٹ کے مسئلے کو حل نہیں کر سکتے.
'ڈیٹا، بردوست ہے کے اعداد و شمار انسانی فطرت کی عکاسی ہے، کیونکہ' ایکسینچر کی عالمی ذمہ داریوں AI نگرانی سے Rumman چودھری نے کہا کہ 'یہ الگورتھم میں سب سے بہتر کیا کرتا ہے: طلب انسانی رویے کا موڈ'
الگورتھم انحراف تعصب مشین لرننگ ماڈل یا ڈیزائن کے اعداد و شمار کی ڈگری کی طرف اشارہ کرتا. بہت سے خبروں چہرے کی شناخت کے نظام ہے (خاص طور پر ایمیزون ویب سروسز تصویر شناس Rekognition) کوئی چھوٹا سا تعصب تھا.
اس کے علاوہ، دیگر علاقوں میں الگورتھم تعصب ہو سکتا ہے، جیسے کہ یہ توقع ہے کہ آیا مائیکروسافٹ خودکار نظام اور مواد کی سفارش کردہ الگورتھم کے مستقبل میں Google نیوز اور دیگر اطلاقات کے پیچھے ہو گا.
مائیکروسافٹ اور آئی بی ایم سمیت آئی ٹی انڈسٹری کے رہنماؤں نے AI الگورتھم میں تعصب کا پتہ لگانے اور کم کرنے کے لئے خود کار طریقے سے اوزار تیار کیے ہیں، لیکن چند ایک شناخت کی شناخت کے مسائل کو مخصوص حل پیش کر سکتے ہیں.
صرف دو کمپنیاں ہیں جو واقعی ایک حل کے ساتھ آتے ہیں. ایک بولنے والی بات ہے اور دوسرا نرس ہے.
تلفظ خلا کی دشواری کو حل کریں
Speechmetrics جس نے 12 سال پہلے مارکیٹ پر کسی بھی مصنوعات کے مقابلے میں زیادہ جامع اور درست آواز شناخت کا نظام تیار کرنے کے لئے ڈیزائن کیا ایک مہتواکانکشی پروگرام پر عمل درآمد شروع کر دیا ہے ایک خصوصی تحقیقی انٹرپرائز تقریر کو تسلیم سافٹ ویئر کیمبرج ٹیکنالوجی کمپنی ہے.
کمپنی اصل میں تعلیم حاصل کر رہا تھا شماریاتی زبان ماڈلنگ اور اکثر نیورل نیٹ ورک. یہ ایک مشین لرننگ ماڈل 2014 کے میموری پیداوار تسلسل، اس کے اعداد و شمار کی زبان کو ماڈلنگ کی ترقی کو تیز کورپس کے ایک گیگا بائٹ استعمال کرتا ہے جس کو سنبھال سکتے ہیں تیار کیا ہے، پہلا قدم سے.
2017، یہ ایک اور سنگ میل کے تئیں: قطر کمپیوٹنگ انسٹی ٹیوٹ (QCRI) عربی زبان تبدیل کرنے کی خدمات تیار کرنے کے لئے.
'ہم ہم ایک آواز کی شناخت کے نظام صرف ایک موڈ، تمام زبانوں، کوئی لہجہ مسئلہ پر لاگو کرنے کے قابل ہو جائے گا تیار کرنے کی ضرورت ہے کہ مل گیا اور یہ آسٹریلوی تلفظ کی درستگی اور مائلیکھن سکاٹش تلفظ کے طور پر اعلی شناخت کرتا ہے.' Speechmatics چیف ایگزیکٹو Benedikt vonThüngen اہلکار نے کہا.
اس سال جولائی میں، وہ کامیابی سے ایک طرح کی ایک تقریر کی شناخت کے نظام گلوبل انگریزی سے تیار. یہ 40 سے زائد ممالک، آواز کے اعداد و شمار کے اوقات کے ہزاروں اور کئی دس ارب الفاظ، آواز متن تبادلوں کی تقریب کے تمام انگریزی لہجے ہے.
اس کے علاوہ، گلوبل انگریزی بھی پہچانا پیٹرن میں نام سے جانا جاتا زبان کا استعمال کرتے ہوئے کی طرف سے ایک نئی زبان کی بنیاد کی زبان سیکھنے کے لئے مصنوعی ذہانت کا ایک فریم ورک ہے جو Speechmatic خودکار ماہر لسانیات، کے قیام سے جڑی ہوئی ہے.
'آپ ایک طرف کرنا چاہتے مان لیں اور امریکی، آسٹریلیا سے بات اور بھی تبادلے کے دوسری طرف ہے، اور کینیڈا میں رہنے کے لئے ہے، تو کینیڈین تلفظ، اس کے بعد تقریر کی شناخت کے نظام کے سب سے زیادہ ایک مختلف کے ساتھ اس کو تسلیم کرنا مشکل ہو جائے گا ہیں استعمال کیا امریکیوں زبان کے تلفظ، لیکن ہماری آواز شناخت کا نظام اس مسئلہ کے بارے میں فکر کرنے کی کوئی بات نہیں ہے. 'ایان Firth کے، کمپنی کی مصنوعات Speechmatics کے نائب صدر نے ایک انٹرویو میں کہا.
ٹیسٹ میں، مخصوص لہجہ کلاؤڈ تقریر API اور آئی بی ایم کے بادل کی شناخت کے مقابلے میں گوگل کے گلوبل انگریزی کارکردگی بھی عمدہ. Thüngen اعلی کے آخر میں کے میدان میں، اس کی درستگی کی شرح کے مقابلے میں 55 دیگر مصنوعات کے لئے 23 فیصد سے بھی زیادہ ہے کہ کہا ٪.
Speechmatics نہ صرف کمپنی کے تلفظ کی شناخت کے مسئلے کو حل کرنے کی کوشش کر.
برلن میں صدر دفاتر، میسا چوسٹس ڈیٹن Nuance ہم آواز کی شناخت کے نظام کو تقریبا 80 زبانوں کی نشاندہی کر سکتے ہیں کہ، اور اعلی درستگی ہی ہیں یقینی بنانے کے لئے طریقوں کی ایک قسم کا استعمال کریں گے.
برطانیہ میں اس زبان کے ماڈل میں، یہ (فہرستوں کو خاص طور پر مراد ہے جیسا کہ لفظ 'COB' کا استعمال کرتے ہوئے) اور تلفظ. لہذا، اس Nuance ہم میں سے ہر ایک منفرد لہجہ لفظ بشمول آواز اور متن کے اعداد و شمار 20 کے مخصوص لہجے کے علاقے، جمع کرتا ہے تقریر کو تسلیم نظام کے 52 مختلف اظہار کی شناخت کے لئے 'ہیتھرو' قابل ہو جائے گا.
آج، Nuance ہم تقریر کو تسلیم نظام ایک نئی ترقی ہے. ڈریگن خود کار طریقے سے صارف کی تلفظ کے مطابق کئی مختلف بولیوں میں مشین لرننگ ماڈل سوئچ جس میں ترقی یافتہ کسٹم سافٹ ویئر پورٹ فولیو، متن Nuance ہم تقریر کا جدید ترین ورژن ہے.
پرانے ورژن کے مقابلے میں کوئی بولی خودکار سوئچنگ تقریب، امریکی اعلی 16.5٪ کی 22.5٪ تسلیم کی درستگی جنوبی بولی ہسپانوی تلفظ کے ساتھ انگریزی کی درستگی کے نئے ورژن کو تسلیم کرنے کے عین مطابق جنوب مشرقی انگریزی کی شناخت کے لئے آواز کی شناخت کے نظام ہے 17.4٪ کے اعلی کی شرح.
بہتر اعداد و شمار
آخر میں، کی وجہ سے پیدا ڈیٹا کی کمی ہے. اعلی کارپس کے معیار کا تلفظ تقریر کو تسلیم مسائل، زیادہ متنوع زبان ماڈل، اس کے بعد کم از کم نظریاتی، اعلی تقریر کو تسلیم نظام کی درستگی.
واشنگٹن پوسٹ، ریاست ہائے متحدہ امریکہ کے 3 فیصد کے مغربی زبان تسلیم کی درستگی کی شرح کے مقابلے میں امریکہ کے جنوبی زبان کے Google ہوم ذہین آواز اسسٹنٹ تسلیم کی درستگی کے مطالعہ میں 2 فیصد کم ہو ایمیزون بازگشت تسلیم کی درستگی مڈویسٹ زبان جبکہ.
ایمیزون ترجمان نے واشنگٹن پوسٹ کو بتایا زیادہ صارفین کو ایک مختلف تلفظ کے ساتھ بولتے ہیں کے طور پر، کے Alexa کی آواز کی شناخت صلاحیتوں میں اضافہ ہوتا رہے گا. اس کے علاوہ، گوگل نے ایک بیان میں کہا ہے کہ وہ کے ذریعے ان کے ڈیٹا بیس کو وسعت کرے گا تقریر تسلیم ٹیکنالوجی گوگل اسسٹنٹ کی مسلسل بہتری.
زیادہ سے زیادہ صارفین کو آواز کی شناخت کے نظام کو استعمال کرنے کے لئے کے طور پر، ان کے افعال کو مزید. بہتر کیا جائے گا مارکیٹ ریسرچ فرم Canalys کے اعداد و شمار ظاہر کرنے کے لئے کے مطابق ہے کہ 2019 کی طرف سے، دنیا میں تقریبا 100 ملین ذہین آواز کے نظام کی فروخت اور، 2022 تک، امریکی گھرانوں کے بارے میں 55 فی صد ایک ذہین آواز نظام پڑے گا.
تلفظ کے مسئلے کو حل کرنے کے لئے ایک پروگرام کی توقع نہ کریں. 'موجودہ ٹیکنالوجی کی ترقی کے مطابق، آپ سب سے زیادہ درستگی کو ترقی نہیں کر سکتا اور دنیا بھر کے صارفین کو ایک آواز کی شناخت کے نظام کے لئے موزوں ہے،' ایمان نے کہا. 'سب سے اچھی بات آپ یہ کر سکتے ہیں بولی کی شناخت کا نظام ہے کہ درست طریقے سے جو صارف کی ان تلفظ استعمال کر رہا ہے کی شناخت کر سکتے ہیں کو یقینی بنانے کے لئے ہے. '