Pubblicato questa settimana nel blog di ricerca di Google in questo articolo ha rivelato che la società sta cercando di ottenere un team interno di intelligenza artificiale (AI), come il cervello umano, come può un interesse attivo per una sorgente sonora, mentre il filtraggio altre sorgenti sonore - come se fossi a una festa Quando si parla con gli amici.
L'approccio di Google utilizza un modello visivo, in modo che possa concentrare gli sforzi per distinguere il suono di un video. La società ha anche annunciato un video multi-YouTube che dimostra l'effetto pratico di questa tecnologia.
Google ha detto che la tecnologia può essere applicata ad una singola traccia video, ma anche con l'algoritmo separa il contenuto audio video diverse persone, ma permette anche all'utente di selezionare manualmente la persona di fronte video, appositamente per ascoltare la voce della persona.
Google ha detto che gli elementi visivi è la chiave, perché la tecnologia si concentrerà sui movimenti delle labbra di una persona per determinare meglio ad un certo punto dovrebbe essere preoccupato per quello che il segmento voce, e creare più precise tracce separate ad un video più lungo.
Google ricercatori attraverso la raccolta di 100.000 segmenti YouTube 'video presentazione' sviluppato questo modello, per un totale di circa 2000 ore per estrarre il contenuto, e poi mescolati, aggiungere queste tracce di un rumore di fondo artificiale.
In seguito Google ha addestrato la tecnologia per segmentare l'audio mixato osservando gli spettrogrammi dei volti e delle tracce video in ciascun fotogramma del video.Questo sistema può distinguere quale fonte appartiene a quale faccia in un momento specifico ed è Ognuno crea una traccia audio separata.
Google ritiene che i sistemi di sottotitoli diventeranno un'area di applicazione principale per il sistema, stanno inoltre valutando una gamma più ampia di applicazioni e stanno esplorando maggiori opportunità di integrarli in vari prodotti Google. Ad esempio, se Aggiungendolo allo smart speaker di Google Home, puoi distinguere le istruzioni emesse da diversi utenti.
Tuttavia, questo modello deve funzionare bene con il video, quindi potrebbe essere più adatto per Amazon Echo Show. Google ha aperto l'assistente Google per display intelligenti come Echo Show all'inizio di quest'anno, ma la società stessa non ha introdotto tali prodotti.
Tuttavia, questa tecnologia può anche causare problemi di privacy, anche se l'effetto reale della tecnologia è molto inferiore rispetto a una presentazione video, può davvero diventare un potente strumento di monitoraggio e monitoraggio con alcune modifiche minori.