Google Research Blog에 게시 된 이번 주 기사는 회사의 내부 팀이 인간 두뇌와 같은 AI (인공 지능)를 만들려고 노력하면서 파티와 마찬가지로 다른 사운드 소스를 필터링하면서 적극적으로 사운드 소스를 살펴 봅니다. 친구와 이야기 할 때.
구글의 접근법은 비디오의 사운드에 집중할 수있는 오디오 - 비주얼 모델을 사용하고 있으며,이 기술의 실제 효과를 보여주기 위해 여러 개의 YouTube 동영상을 발표했다.
구글은이 기술은 하나의 비디오 트랙에 적용뿐만 아니라 알고리즘이 다른 사람의 비디오 오디오 컨텐츠를 분리뿐만 아니라, 특히 사람의 음성을 듣고, 직접 비디오 얼굴에 사람을 사용자가 선택할 수있는가 될 수있다.
구글은이 기술이 어떤 점은 무엇 음성 세그먼트에 대한 우려해야 더 나은 결정하는 사람의 입술의 움직임에 초점을, 그리고 더 긴 비디오로보다 정확한 별도의 트랙을 만들 수 있기 때문에 시각적 요소, 핵심이라고 말했다.
10 개 세그먼트를 유튜브 '비디오 프리젠 테이션'을 수집하여 구글의 연구자들은 인공 배경 잡음에이 트랙을 추가,이 모델의 내용을 추출하기 위해 약 2000 시간 총을 개발 한 후 혼합.
Google은 나중에 비디오의 각 프레임에서 얼굴과 비디오 트랙의 스펙트로 그램을 관찰하여 혼합 오디오를 분류하는 기술을 교육했습니다.이 시스템은 특정 시간 내에 어느 소스가 어떤 얼굴에 속하고 있는지를 구별 할 수 있습니다. 누구나 별도의 오디오 트랙을 만듭니다.
Google은 자막 방송 시스템이 시스템의 주요 응용 분야가 될 것이라고 생각하며 다양한 응용 프로그램을 고려하고 있으며 다양한 Google 제품에 통합 할 수있는 기회를 모색하고 있습니다. Google 홈 스마트 스피커에 추가하면 다른 사용자가 발행 한 안내를 구별 할 수 있습니다.
그러나이 모델은 비디오와 잘 작동해야하므로 Amazon Echo Show에 더 적합 할 수 있습니다 Google은 올해 초 Echo Show와 같은 스마트 디스플레이 용 Google Assistant를 열었지만 회사 자체는 아직 출시하지 않았습니다.
그러나이 기술은 개인 정보 보호에 대한 우려를 유발할 수 있습니다. 실제 기술의 효과는 비디오 프레젠테이션보다 훨씬 적지 만 실제로 약간의 조정만으로도 강력한 모니터링 및 모니터링 도구가 될 수 있습니다.