O Google usa AI para extrair faixas independentes de ambientes ruidosos: ou há preocupações com a privacidade@goodchinabrand.com

Pesquisadores do Google desenvolveram um sistema de aprendizagem profunda que pode ajudar os computadores a reconhecer e distinguir melhor a voz de uma pessoa em um ambiente barulhento.

O artigo desta semana publicado no Blog de pesquisa do Google mostra que uma equipe interna da empresa está tentando fazer inteligência artificial (AI), como o cérebro humano, analisar ativamente uma fonte de som enquanto filtra outras fontes de som, como se estivesse em uma festa. Ao conversar com amigos.

A abordagem do Google usa um modelo audiovisual que permite focar nos sons de um vídeo.A empresa também lançou vários vídeos do YouTube para demonstrar o efeito real da tecnologia.

Google disse que a tecnologia pode ser aplicada a uma única faixa de vídeo, mas também pelo algoritmo separa o conteúdo de áudio e vídeo em diferentes pessoas, mas também permite que o usuário selecione manualmente a pessoa em face de vídeo, especificamente para ouvir a voz da pessoa.

Google disse que os elementos visuais é a chave, porque a tecnologia vai se concentrar em movimentos labiais de uma pessoa para melhor determinar em algum momento deve estar preocupado com o que o segmento de voz, e criar faixas separadas mais precisos para um vídeo mais longo.

Pesquisadores do Google desenvolveram esse modelo coletando 100.000 vídeos de fala do YouTube, e um total de aproximadamente 2.000 horas de conteúdo foi extraído, depois as faixas de áudio foram mixadas e um ruído de fundo artificial foi adicionado.

Google após a técnica de treinamento, observando o espectro de cada célula no rosto humano de vídeo e faixas de áudio de vídeo, áudio mistura depois da separação. O sistema pode distinguir qual enfrenta que pertencem à fonte de som em um determinado momento, e é Todo mundo faz uma faixa de áudio separada.

O Google acredita que o sistema de closed caption vai se tornar um grande campo de aplicação do sistema, eles também prever uma direção mais ampla aplicação, mas também para explorar mais oportunidades, esperanças para integração em uma variedade de produtos do Google. Por exemplo, se Ao adicioná-lo ao palestrante inteligente do Google Home, você pode distinguir as instruções emitidas por diferentes usuários.

No entanto, este modelo precisa funcionar bem com o vídeo, por isso pode ser mais adequado para o Amazon Echo Show. Google abriu o assistente do Google para telas inteligentes, como Echo Show no início deste ano, mas a empresa não introduziu tais produtos.

No entanto, essa tecnologia também pode causar preocupações com a privacidade Embora o efeito real da tecnologia seja bem menor do que uma apresentação em vídeo, ela pode se tornar uma ferramenta poderosa de monitoramento e monitoramento com alguns pequenos ajustes.