گوگل ریسرچ بلاگ میں شائع ہونے والے ہفتے کے اس مضمون سے پتہ چلتا ہے کہ کمپنی کی ایک داخلی ٹیم مصنوعی انٹیلی جنس (اے اے) بنانے کے لئے ہے جس میں انسانی دماغ کی طرح، ایک دوسرے کے ذریعہ صوتی مادہ کو فلٹر کرنے کے دوران فعال طور پر آواز کا ذریعہ نظر آتا ہے. دوستوں سے بات کرتے وقت
گوگل کا نقطہ نظر ایک آڈیو بصری ماڈل کا استعمال کرتا ہے جس سے اسے ویڈیو کی آوازوں پر توجہ مرکوز کرنے کی اجازت دی جاتی ہے. کمپنی نے ٹیکنالوجی کے اصل اثر کو ظاہر کرنے کے لئے ایک سے زیادہ YouTube ویڈیوز بھی جاری کیے ہیں.
گوگل نے کہا کہ یہ ٹیکنالوجی واحد ٹریک ویڈیو پر لاگو کیا جاسکتا ہے، اور ویڈیو میں مختلف افراد کی آڈیو مواد الگورتھم کی طرف سے علیحدہ کر سکتے ہیں، اور صارف کو خاص طور پر شخص کی آواز سننے کے لئے ویڈیو میں دستی طور پر چہرے کا انتخاب کرنے کی اجازت دیتا ہے.
گوگل نے کہا کہ بصری عنصر کلیدی ہے، کیونکہ یہ ٹیکنالوجی ایک شخص کی ہونٹ تحریک پر توجہ مرکوز کرے گا، بہتر فیصلہ کرنے کے لئے آواز کا کون سا حصہ کسی مخصوص وقت پر توجہ مرکوز کرنا چاہئے، اور طویل عرصے سے ویڈیو کے لئے زیادہ درست آڈیو ٹریک بنانا.
Google محققین نے اس ماڈل کو 100،000 یوٹیوب 'تقریر کی ویڈیوز' جمع کرکے تیار کیا. مجموعی طور پر تقریبا 2،000 گھنٹے کا مواد نکال دیا گیا. اس کے بعد آڈیو پٹریوں کو مخلوط کیا گیا اور مصنوعی پس منظر شور شامل کی گئی.
گوگل نے بعد میں ویڈیو کے ہر فریم میں چہرہ اور ویڈیو پٹریوں کے اسکریوگراموں کی طرف سے مخلوط آڈیو کو تقسیم کرنے کے لئے ٹیکنالوجی کو تربیت دی. یہ نظام مختلف ہوسکتا ہے جس کا ایک مخصوص وقت میں کونسا ذریعہ ہے ہر ایک علیحدہ آڈیو ٹریک کرتا ہے.
Google کا خیال ہے کہ بند کیپشن نظام نظام کے لئے ایک بڑا درخواست کا میدان بن جائے گی. وہ ایپلی کیشنز کی ایک وسیع رینج پر بھی غور کر رہے ہیں اور انہیں مختلف Google مصنوعات میں ضم کرنے کے لئے مزید مواقع تلاش کر رہے ہیں. مثال کے طور پر، اگر اسے Google ہوم سمارٹ اسپیکر میں شامل کرکے، آپ مختلف صارفین کی طرف سے جاری کردہ ہدایات کو مختلف کرسکتے ہیں.
تاہم، یہ ماڈل ویڈیو کے ساتھ اچھی طرح سے کام کرنے کی ضرورت ہے، لہذا یہ ایمیزون اکو شو کے لئے زیادہ موزوں ہوسکتا ہے. گوگل نے Google اسمارٹ کو اسمارٹ ڈسپلے جیسے اسکو شو کے طور پر کھول دیا ہے، لیکن اس کمپنی نے ابھی تک اس طرح کی مصنوعات شروع نہیں کی ہے.
تاہم، یہ ٹیکنالوجی رازداری کے خدشات کا سبب بن سکتی ہے. اگرچہ اس ٹیکنالوجی کا اصل اثر ویڈیو ویڈیو کی پیشکش سے بہت کم ہے، لیکن یہ یقینی طور پر کچھ معمولی ایڈجسٹمنٹ کے ساتھ طاقتور نگرانی اور نگرانی کے آلے بن سکتا ہے.