本周在穀歌研究博客中發布的文章顯示, 該公司的一個內部團隊試圖讓人工智慧(AI)像人類的大腦一樣, 可以主動關注一個聲源, 同時過濾其他聲源——就像你在聚會上跟朋友對話時的做法.
穀歌的方法使用了一個視聽模型, 使之可以集中精力區分一段視頻中的聲音. 該公司還發布了多段YouTube視頻, 演示這項技術的實際效果.
穀歌表示, 這項技術可以適用於單音軌視頻, 而且可以通過演算法分離出視頻中不同人的音頻內容, 也可以讓用戶手動選取視頻中的人臉, 專門收聽此人的聲音.
穀歌表示, 視覺元素是關鍵, 因為這項技術會關注一個人的嘴唇運動, 從而更好地判斷某個時點應該關注哪段聲音, 並為一段較長的視頻創造更精確的獨立音軌.
穀歌研究人員通過收集10萬段YouTube '演講視頻' 開發了這個模型, 總共提取了大約2000小時的內容, 然後將這些音軌混合後, 添加上人工背景噪音.
穀歌之後訓練該技術通過觀察每一格視頻中的人臉和視頻音軌的頻譜圖, 把混合後的音頻進行分割. 這套系統可以區分哪個聲源在特定時間內屬於哪張臉, 並為每個人製作一段獨立的音軌.
穀歌認為, 隱藏式字幕系統會成為該系統的一大應用領域, 他們還在設想更廣泛的應用方向, 而且還在探索更多的機會, 希望將其整合到各種穀歌產品中. 例如, 如果把它加入到Google Home智能音箱中, 便可區分出不同用戶發出的指令.
不過, 這個模型需要配合視頻才能更好地發揮作用, 所以可能更適合亞馬遜Echo Show. 穀歌今年早些時候面向Echo Show這樣的智能顯示器開放了穀歌助手, 但該公司本身尚未推出這樣的產品.
但這項技術可能也會引發隱私擔憂. 雖然該技術的實際效果遠沒有視頻演示得那麼好, 但經過一些細微調整, 的確有可能成為強大的監聽和監視工具.