Un article publié cette semaine dans le blog Google Research montre qu'une équipe interne de l'entreprise tente de faire en sorte que l'intelligence artificielle (IA), comme le cerveau humain, se concentre sur une source sonore tout en filtrant les autres sources sonores. Lorsque vous parlez à des amis
L'approche de Google utilise un modèle audio-visuel qui lui permet de se concentrer sur les sons d'une vidéo.La société a également publié plusieurs vidéos YouTube pour démontrer l'effet réel de la technologie.
Google a déclaré que cette technologie peut être appliquée à la vidéo unique, et peut séparer le contenu audio de différentes personnes dans la vidéo par algorithme, et également permettre à l'utilisateur de sélectionner manuellement le visage dans la vidéo pour écouter spécifiquement la voix de la personne.
Google a dit que l'élément visuel est la clé, car cette technologie se concentre sur le mouvement des lèvres d'une personne, afin de mieux juger quelle partie du son doit être focalisée sur un moment donné et créer une piste audio indépendante plus précise pour une vidéo plus longue.
Les chercheurs de Google ont développé ce modèle en collectant 100 000 «vidéos de discours» sur YouTube, ce qui a permis d'extraire environ 2 000 heures de contenu, puis de mélanger les pistes audio et d'ajouter du bruit de fond artificiel.
Google a ensuite formé la technologie pour segmenter l'audio mixé en observant les spectrogrammes des visages et des pistes vidéo dans chaque image de la vidéo.Le système peut distinguer quelle source appartient à quel visage dans un certain laps de temps et est Tout le monde fait une piste audio séparée.
Google pense que les systèmes de sous-titrage codé deviendront un domaine d'application majeur pour le système, envisageant également un plus large éventail d'applications et explorant davantage d'opportunités de les intégrer dans différents produits Google. En l'ajoutant au haut-parleur intelligent Google Home, vous pouvez distinguer les instructions émises par différents utilisateurs.
Cependant, ce modèle doit bien fonctionner avec la vidéo, donc il peut être plus approprié pour l'Amazon Echo Show Google a ouvert l'assistant Google pour les écrans intelligents tels que Echo Show plus tôt cette année, mais la société elle-même n'a pas encore lancé de tels produits.
Cependant, cette technologie peut également causer des problèmes de confidentialité.Bien que l'effet réel de la technologie est beaucoup moins qu'une présentation vidéo, il peut en effet devenir un puissant outil de surveillance et de surveillance avec quelques ajustements mineurs.