今週発表されたGoogle Researchのブログに掲載された記事では、社内のチームが人間の脳のような人工知能(AI)を、他の音源をフィルタリングしながら、音源に集中しているようにしようとしています。友達と話すとき。
Googleのアプローチは、動画の音に焦点を当てることができるオーディオビジュアルモデルを使用しています。同社はまた、この技術の実際の効果を実証するために複数のYouTube動画をリリースしました。
Googleは技術は、単一のビデオトラックに適用するだけでなく、アルゴリズムによって異なる人々で映像音声コンテンツを分離するだけでなく、ユーザーが手動でビデオ顔で人を選択することができ、特に人の声に耳を傾けることができると述べました。
Googleは技術がより良いものを、音声セグメントを心配すると、長いビデオをより正確に別々のトラックを作成する必要がありますいくつかの点で決定するために、人の唇の動きに焦点を当てますので、視覚的要素は、キーであることを述べました。
10万セグメントにYouTubeの「ビデオ・プレゼンテーション」を収集することにより、Googleの研究者たちは、人工的なバックグラウンドノイズにこれらのトラックを追加し、このモデルでは、内容を抽出するために約2000時間の合計を開発し、その後、混合しました。
ビデオ、分割後のオーディオミキシングのビデオとオーディオトラックの人間の顔の各セルのスペクトルを観察することにより、トレーニング技術後グーグル。システムは、所与の時点で音源に属する対向する区別することができ、そしてれます誰もが別々のオーディオトラックを作ります。
Googleはクローズドキャプションシステムは、彼らはまた、Googleの様々な製品への統合のために期待している、より広いアプリケーションの方向を想定するだけでなく、より多くの機会を探るために、システムのアプリケーションの主要な分野になるだろうと考えています。たとえば、 Google Homeスマートスピーカーに追加することで、さまざまなユーザーからの指示を区別することができます。
しかし、このモデルは、より良い役割を再生する映像に合わせて必要があり、それがエコー表示このインテリジェントなディスプレイが開いて、Googleのアシスタントのアマゾンエコーショー。グーグル今年初めより適切かもしれないが、会社自体はまだそのような製品を発売していません。
しかし、この技術はプライバシーの問題を引き起こす可能性があります。実際の効果はビデオプレゼンテーションよりもはるかに小さいですが、実際には若干の調整を加えた強力な監視および監視ツールになる可能性があります。