Der Artikel dieser Woche im Blog von Google Research zeigt, dass ein internes Team des Unternehmens versucht, künstliche Intelligenz (KI) wie das menschliche Gehirn aktiv auf eine Klangquelle zu konzentrieren und gleichzeitig andere Tonquellen zu filtern - genau wie auf einer Party. Wenn man mit Freunden spricht.
Googles Ansatz verwendet ein audiovisuelles Modell, das es ermöglicht, sich auf die Geräusche eines Videos zu konzentrieren, und veröffentlichte mehrere YouTube-Videos, um den tatsächlichen Effekt der Technologie zu demonstrieren.
Google sagte, dass diese Technologie auf Single-Track-Video angewendet werden kann und den Audio-Content verschiedener Personen im Video nach Algorithmus trennen kann. Außerdem kann der Benutzer das Gesicht im Video manuell auswählen und speziell auf die Stimme der Person hören.
Google sagte, dass die visuellen Elemente der Schlüssel, da die Technologie auf einer Person, die Lippenbewegungen konzentrieren, um besser einen Punkt beurteilen sollte, was die Klangsegmente betroffen sein, und genauer einzelne Spuren zu einem längeren Video erstellen.
Google-Forscher entwickelten dieses Modell, indem sie 100.000 "Sprachvideos" von YouTube sammelten. Insgesamt wurden ca. 2.000 Stunden Inhalt extrahiert. Dann wurden die Audiotracks gemischt und künstliche Hintergrundgeräusche hinzugefügt.
Später trainierte Google die Technologie, um das gemischte Audio zu segmentieren, indem es die Spektrogramme der Gesichter und Videospuren in jedem Frame des Videos beobachtete.Das System kann innerhalb eines bestimmten Zeitraums unterscheiden, welche Quelle zu welchem Gesicht gehört Jeder macht eine separate Audiospur.
Google ist der Ansicht, dass Untertitel-Systeme zu einem wichtigen Anwendungsgebiet für das System werden, dass sie eine breitere Palette von Anwendungen in Betracht ziehen und mehr Möglichkeiten zur Integration in verschiedene Google-Produkte erkunden Durch Hinzufügen zum Smart Home von Google Home können Sie die Anweisungen verschiedener Benutzer unterscheiden.
Allerdings muss dieses Modell gut mit Video funktionieren, daher könnte es für die Amazon Echo Show besser geeignet sein: Google hat Anfang dieses Jahres den Google-Assistenten für intelligente Displays wie Echo Show eröffnet, aber das Unternehmen selbst hat solche Produkte noch nicht eingeführt.
Diese Technologie kann jedoch auch Bedenken hinsichtlich der Privatsphäre aufwerfen.Obwohl die tatsächliche Wirkung der Technologie viel geringer ist als bei einer Videopräsentation, kann sie tatsächlich zu einem leistungsfähigen Überwachungs- und Überwachungswerkzeug mit einigen geringfügigen Anpassungen werden.