Hany Farid是美國達特茅斯學院的一名計算機科學家, 擅長檢測圖片和視頻造假. 他的客戶包括大學, 媒體組織和法院, 他說圖片造假不僅變得越來越頻繁, 也變得越來越高明. 他向《自然》講述了他與造假者之間你追我趕的 '軍備競賽' .
鑒定造假圖片的第一步是什麼?
一種簡單而又有效的做法是反向圖片搜索. 你把圖片放到Google Image Search或TinEye裡面進行搜索, 它們會顯示該圖片還在其他哪些地方出現過. 哥倫比亞大學的一個項目則將這個做法提高到新的高度, 他們開始查找目標圖片中從其它圖片改換而來的部分.
一般而言, 如果一張圖片是假的, 我們會考慮哪些圖案, 幾何特徵, 顏色或結構會被破壞. 例如, 如果有人向一個場景裡添加了一個物體, 我們知道他們添加的陰影一般是錯的. 2012年, 一段名為 'Golden Eagle Snatches Kid' ( '老鷹抓孩子' ) 的視頻被瘋傳, 它是我最喜歡的案例之一. 我們只用了15分鐘就發現了陰影的不協調之處: 老鷹和小孩都是電腦製作而成的.
如果造假手段非常隱蔽怎麼辦?
我們有大量分析手段可用. 在彩色照片中, 每一個像素都需要三個值——分別對應該點的紅色, 綠色和藍色的分量. 但是, 大部分相機每個像素只記錄一種顏色, 並通過採用該像素周圍像素的均值來填補空白. 這意味著對於一張照片中的任何給定顏色來說, 每一個缺失的像素都與其周圍像素存在特定的關聯, 如果我們添加某物或進行修飾, 這種關聯就會被破壞, 我們就能檢測出來.
另一種技術叫JPEG壓縮. 幾乎所有圖片都採用JPEG格式存儲, 它們在保存的時候會損失部分資訊. 而每一種相機在存儲時損失的資訊量千差萬別. 如果使用Photoshop開啟JPEG檔案, 然後再保存, 最終一定會和原始檔案存在細微差別, 這個是我們可以檢測出來的. 我希望我可以快速鑒別你上傳的任意圖片的真偽; 不過, 目前鑒定仍然非常困難, 需要專業知識才能發現其中不協調的部分.
誰使用你的數字取證服務?
我服務的組織包括美聯社, 路透社和《紐約時報》. 全球專攻數字取證的專業人員屈指可數, 因此工作範圍有限, 也就是說你只能分析一些真正舉足輕重的圖片. 不過, 有關方面正在為擴大分析範圍而努力. 去年, 美國國防高級研究計劃局 (DARPA) 啟動了一個大型項目, 我也參與其中. 他們嘗試在未來五年裡建立一個系統, 讓你可以一天分析成千上萬張圖片. 這是一個雄心勃勃的項目.
我也為法庭提供大量服務. 例如, 兒童色情作品在美國是非法的, 但是電腦生成的兒童色情作品受美國憲法第一修正案 '言論自由' 條款的保護. 如果有人因此被捕, 他們可能說圖片不是真的, 那麼我就需要證明這一點. 我幾乎每天都會收到有關圖片騙局的電子郵件.
你的技術會應用在科學論文上嗎?
我曾經有幾次受雇於大學, 調查學校內部的學術不端行為. 不久前我去美國研究誠信辦公室, 他們問我 '我們怎樣才能獲得自動化工具? ' 事實上, 我們還未達到自動化程度. 不過, 建立一種每天檢測幾十張而非上百萬張照片的半自動化流程還是可能的, 它可採用諸如克隆檢測等工具, 查看圖片中的某些部分是否是從別處複製粘貼而來的. 我和同事都在考慮這件事, 它雖然小, 但卻是DARPA項目的一個重要組成部分.
請談談假視頻吧?
現在, 研究人員能夠將名人鏡頭剪到一起製成視頻, 讓他們看起來在說些他們實際上從未說過的話, 比如奧巴馬的一些視頻. 研究人員還能使用機器學習技術, 尤其是可以學習生成虛假內容的生成對抗網路 (GAN) , 製作虛假圖片或短視頻. 這樣, 讓一個生產虛假內容的網站與一個嘗試鑒定真偽的 '分類器' 網站競爭, 使造假網站在這個過程中快速增強.
我目睹了一流的造假技術, 對此我感到非常擔憂. 在5-10年內, 這些技術將達到一流水準. 到達一定階段後, 我們將能夠生成逼真的, 包含音頻的世界領導人視頻, 這令人非常不安. 我想說數字取證技術已經落後於視頻造假技術了.
如何檢測造假視頻?
視頻中也存在類似於JPEG壓縮的特點, 但是更難檢測, 因為視頻採用一個更為複雜的版本. 因此, 可以採用機器學習技術來鑒別視頻真假. 不過, 我們用以鑒定視頻的方法和鑒定圖片的方法相似: 通過觀察, 發現電腦生成內容所缺乏的錄製視頻原本存在的瑕疵. 電腦生成內容總是太過完美. 因此, 我們要考察的一點是: 我們可以看到在現實世界中存在的統計特徵和幾何特徵嗎?
另外一種技術來自William Freeman及其MIT同事的傑出研究: 如果視頻中的人發生了極微小的變化, 通過放大, 你可以看到與脈搏率對應的人臉顏色的細微變化. 這樣, 你就可以將真人和電腦生成的人區別開來.
機器學習演算法不能學習掌握這些特徵嗎?
原則上也許可以. 但是在實際操作中, 這些演算法只有有限的時間和訓練數據, 很難控制神經網路會採用哪些特徵來鑒別視頻真偽. GAN只是嘗試欺騙訓練它的分類器網站. 這不能保證它將學習到可以區別圖片或視頻真偽的所有特徵, 也不能保證它能糊弄別的分類器網站.
我的對手必須採用我使用的所有鑒定技術, 訓練神經網路繞過這些方面的分析: 例如添加脈搏. 這意味著我給他們的工作增加了難度.
這就是一場 '軍備競賽' . 在我們加速發展的同時, 我們的對手也在開發更加精密的技術來增強音頻, 圖片和和視頻. 只有當業餘人員無法完美造假, 這場競賽才會終結. 你不斷增加造假難度, 他們造假的時間和技能要求就越高, 於是被抓的風險也越大.
原文以The scientist who spots fake videos為標題發布在2017年10月6日的《自然》新聞問答上