تُظهر مقالة هذا الأسبوع المنشورة في مدونة جوجل للأبحاث أن فريقًا داخليًا من الشركة يحاول جعل الذكاء الاصطناعي (AI) ، مثل الدماغ البشري ، يركز بشكل نشط على مصدر صوتي في الوقت الذي يقوم فيه بتصفية مصادر الصوت الأخرى - تمامًا كما هو الحال في الحفلات. عند التحدث مع الأصدقاء.
تستخدم مقاربة Google نموذجًا سمعيًا ومرئيًا يسمح لها بالتركيز على أصوات الفيديو ، كما أصدرت الشركة أيضًا مقاطع فيديو متعددة على YouTube لإثبات التأثير الفعلي للتكنولوجيا.
قالت Google إنه يمكن تطبيق هذه التقنية على فيديو أحادي المسار ، ويمكن فصل المحتوى الصوتي للأشخاص المختلفين في الفيديو عن طريق الخوارزمية ، وكذلك السماح للمستخدم باختيار الوجه يدويًا في الفيديو للاستماع لصوت الشخص على وجه التحديد.
وقالت جوجل إن العنصر المرئي هو المفتاح ، لأن هذه التقنية سوف تركز على حركة شفة الشخص ، وذلك لتحديد أفضل للصوت الذي ينبغي التركيز عليه في وقت معين ، وإنشاء مسار صوتي مستقل أكثر دقة لفيديو أطول.
طور الباحثون من Google هذا النموذج من خلال جمع 100000 من مقاطع فيديو الكلام على YouTube ، وتم استخراج ما مجموعه 2000 ساعة تقريبًا من المحتوى ، ثم كانت المقاطع الصوتية مختلطة وتمت إضافة ضوضاء خلفية صناعية.
بعد ذلك ، قامت Google بتدريب التقنية لتقسيم الصوت المختلط من خلال مراقبة الطيف الضوئي للوجوه ومسارات الفيديو في كل إطار من الفيديو ، ويمكن لهذا النظام أن يميز المصدر الذي ينتمي إلى الوجه في غضون وقت محدد. الجميع يجعل مسار الصوت منفصلة.
تؤمن Google بأن أنظمة التسميات التوضيحية المغلقة ستصبح منطقة تطبيقات رئيسية للنظام ، كما أنها تفكر في نطاق أوسع من التطبيقات وتستكشف المزيد من الفرص لدمجها في منتجات Google المختلفة. من خلال إضافته إلى سماعة Google الرئيسية الذكية ، يمكنك تمييز الإرشادات الصادرة عن مستخدمين مختلفين.
ومع ذلك ، يجب أن يعمل هذا النموذج بشكل جيد مع الفيديو ، لذلك قد يكون أكثر ملاءمة لعرض Amazon Echo ، فتح Google مساعد Google للعروض الذكية مثل Echo Show في وقت سابق من هذا العام ، ولكن الشركة نفسها لم تطلق هذه المنتجات بعد.
ومع ذلك ، قد تتسبب هذه التقنية أيضًا في مشكلات تتعلق بالخصوصية ، فعلى الرغم من أن التأثير الفعلي للتكنولوجيا أقل بكثير من عرض الفيديو ، فقد يصبح بالفعل أداة مراقبة ومراقبة قوية مع بعض التعديلات الطفيفة.