लेख में गूगल अनुसंधान ब्लॉग में इस सप्ताह प्रकाशित पता चला कि कंपनी कृत्रिम बुद्धि (ऐ) के एक इन-हाउस टीम पाने के लिए मानव मस्तिष्क की तरह, के रूप में कर सकते हैं एक ध्वनि स्रोत में सक्रिय रुचि, अन्य ध्वनि स्रोतों को छानने, जबकि कोशिश कर रहा है, - जैसे आप एक पार्टी में रहे जब दोस्तों के साथ अभ्यास बातचीत।
Google का तरीका, एक दृश्य मॉडल का उपयोग करता। इतना है कि यह एक वीडियो की ध्वनि भेद करने के लिए प्रयासों पर ध्यान केंद्रित कर सकते हैं कंपनी ने भी एक बहु यूट्यूब वीडियो है कि इस प्रौद्योगिकी का व्यावहारिक प्रभाव को दर्शाता है की घोषणा की।
Google ने कहा कि इस तकनीक को सिंगल-ट्रैक वीडियो पर लागू किया जा सकता है, और वीडियो में अलग-अलग लोगों की ऑडियो सामग्री को एल्गोरिदम द्वारा अलग कर सकता है, और उपयोगकर्ता को वीडियो में चेहरे का मैन्युअल रूप से चयन करने की अनुमति देता है और विशेष रूप से व्यक्ति की आवाज़ सुनता है।
Google ने कहा कि दृश्य तत्व कुंजी है, क्योंकि यह तकनीक किसी व्यक्ति के होंठ आंदोलन पर ध्यान केंद्रित करेगी, ताकि बेहतर निर्णय लेने के लिए कि ध्वनि के किस हिस्से को निश्चित समय पर केंद्रित किया जाना चाहिए, और लंबे वीडियो के लिए एक अधिक सटीक स्वतंत्र ऑडियो ट्रैक बनाना चाहिए।
Google शोधकर्ताओं ने 100,000 यूट्यूब 'भाषण वीडियो' एकत्र करके इस मॉडल को विकसित किया। कुल 2,000 घंटे की सामग्री निकाली गई। फिर ऑडियो ट्रैक मिश्रित थे और कृत्रिम पृष्ठभूमि शोर जोड़ा गया था।
गूगल वीडियो और वीडियो के ऑडियो पटरियों के मानव चेहरे में प्रत्येक कोशिका के स्पेक्ट्रम को देख, ऑडियो विभाजन के बाद के मिश्रण से प्रशिक्षण तकनीक के बाद। प्रणाली भेद कर सकते हैं जो सामना कर रहा है जो एक निश्चित समय पर ध्वनि स्रोत के हैं, और है हर कोई एक अलग ऑडियो ट्रैक बनाता है
गूगल का मानना है कि बंद कैप्शन प्रणाली प्रणाली के आवेदन का एक प्रमुख क्षेत्र बन जाएगा, वे भी एक व्यापक आवेदन दिशा की परिकल्पना, लेकिन यह भी अधिक अवसरों का पता लगाने के लिए, Google उत्पादों की एक किस्म में एकीकरण के लिए उम्मीद है। उदाहरण के लिए, यदि इसे Google होम स्मार्ट स्पीकर में जोड़कर, आप विभिन्न उपयोगकर्ताओं द्वारा जारी किए गए निर्देशों को भेद कर सकते हैं।
हालांकि, इस मॉडल को वीडियो के साथ अच्छी तरह से काम करने की ज़रूरत है, इसलिए यह अमेज़ॅन इको शो के लिए अधिक उपयुक्त हो सकता है। Google ने इस साल की शुरुआत में इको शो जैसे स्मार्ट डिस्प्ले के लिए Google सहायक खोला, लेकिन कंपनी ने अभी तक ऐसे उत्पादों को पेश नहीं किया है।
हालांकि, यह तकनीक गोपनीयता चिंताओं का भी कारण बन सकती है। हालांकि प्रौद्योगिकी का वास्तविक प्रभाव वीडियो प्रस्तुति से बहुत कम है, लेकिन यह वास्तव में कुछ मामूली समायोजनों के साथ एक शक्तिशाली निगरानी और निगरानी उपकरण बन सकता है।