مقاله این هفته که در وبلاگ تحقیق Google منتشر شده نشان می دهد که یک تیم داخلی این شرکت در حال تلاش برای ایجاد هوش مصنوعی (AI) است، مانند مغز انسان، در حالی که فیلترهای دیگر منابع صوتی را فیلتر می کند، به طور دقیق مانند شما در یک مهمانی تمرکز می کنند. هنگام صحبت کردن با دوستان
رویکرد گوگل از یک مدل صوتی و تصویری استفاده می کند که اجازه می دهد تا آن را بر روی تلفن های موبایل یک ویدیو متمرکز کند. این شرکت همچنین چندین ویدیو یوتیوب را برای نشان دادن تاثیر واقعی تکنولوژی منتشر کرد.
گوگل گفت که این تکنولوژی را می توان به یک ویدیو تک تک اعمال کرد و می توان محتوای الگوریتم صوتی مختلف افراد را در ویدیو جدا کرد و همچنین به کاربر اجازه می دهد تا صورت خود را در ویدیو انتخاب کند و به طور خاص به صدای شخص گوش دهد.
گوگل گفت که عنصر بصری کلید است، چرا که این تکنولوژی بر روی حرکت لمس شخص متمرکز خواهد بود، به طوری که بهتر است قضاوت در مورد اینکه چه بخشی از صدا در یک زمان خاص متمرکز شده است، و یک ترانه صوتی مستقل تر برای ویدیو طولانی تر ایجاد کند.
محققان Google این مدل را با جمع آوری 100،000 ویدیوهای گفتاری یوتیوب، به دست آوردند. در مجموع حدود 2000 ساعت محتوا استخراج شد، سپس آهنگ های صوتی مخلوط شدند و سر و صدای پس زمینه مصنوعی اضافه شد.
گوگل پس از استفاده از روش آموزش با مشاهده طیف هر سلول در صورت انسان از ویدئو و آهنگ های صوتی از ویدئو، صدا مخلوط پس از انشعاب. این سیستم می تواند تشخیص که چهره که متعلق به منبع صدا در یک زمان معین است، و همه برای یک آهنگ های صوتی جداگانه ساخته شده است.
گوگل معتقد است که سیستم به شرح بسته را تبدیل به یک رشته اصلی استفاده از سیستم، آنها نیز جهت برنامه گسترده تر در ذهن مجسم، بلکه برای کشف فرصت های بیشتر، امیدوار است برای یکپارچه سازی را به انواع محصولات Google. برای مثال، اگر آن را به صفحه اصلی Google سخنرانان هوشمند اضافه کنید، آن می توانید آموزش های مختلف صادر شده توسط کاربران تمایز قائل شود.
با این حال، این مدل نیاز به تناسب ویدیو به نقش بهتری بازی، آن را ممکن است مناسب تر آمازون اکو نمایش گوگل در اوایل سال جاری برای اکو نمایش این صفحه نمایش هوشمند باز دستیاران گوگل است، اما خود شرکت هنوز راه اندازی محصولات مانند ندارد.
اما این تکنولوژی همچنین می تواند به نگرانی های حریم خصوصی منجر شود. اگر چه اثر واقعی از تکنولوژی است، به دور از ارائه ویدئو خیلی خوب بود، اما پس از برخی از تنظیمات جزئی هستند، به احتمال زیاد به گوش قدرتمند و ابزار نظارت وجود دارد.