依圖聯合創始人: AI 的格局, 場景和未來

我是 Leo, 依圖科技聯合創始人, UCLA 統計學博士, 從事人工智慧研究 15 年, 曾在深度學習奠基者 Yann LeCun 教授實驗室擔任研究員, 2010 年獲得 PASCAL 映像目標檢測比賽冠軍, 2017 年獲得美國國家標準與技術研究院 NIST 和美國國家情報高級研究計劃局 IARPA 人臉識別全球冠軍.

最近, 大量關於人工智慧的研究報告, 投資人, 創業者, 學者熱議 AI 的趨勢和對社會各行業的影響, 不乏對 AI 技術和產業發展的誤解, 很容易有誤導性. 宏觀上, 議題大體分為三個方面: AI 是多大的事?誰是真正的 AI player?AI 的場景在哪裡?

從科學研究者和創業者的雙視角談談我的主要觀點: AI 的邊界, 只有領軍人物才可能準確把握和拓展;頂尖企業, 因為遠見造就勢能;AI 的未來, 無與倫比, 沒有曆史可以借鑒, 也沒有權威可以預測.

「S」曲線看 AI 格局

我對 AI 發展曆史和預測, 用上圖的「S」形曲線建模(Sigmoid 函數, 恰好也是用來刻畫神經網路中神經元的 activation function). 橫軸表示時間, 縱軸表示機器智能水平. 曲線上的點表示某個時間點的全球最高智能水平. 2013 年開始是新 AI 時代(深度學習), 2013 年前的機器智能發展水平相較於近 5 年的發展基本可以忽略不計. 紅線代表悲觀派(AI 退潮, AI 泡沫等), 2017 年之後很快出現發展停頓;藍線代表樂觀派, 2017 年之後還有快速發展. 值得強調的是, 藍紅兩條曲線對 AI 曆史有相同認識, 但市場上很多論調或研究報告看到的是另一條曲線, 很大機率調研看到的 AI 水平離最高水平有很大差距. 分析 AI 格局的不同立場, 可以通過解讀 S 曲線的三個方面:

1, AI 過去的發展以及 AI 未來發展程度和速率的預測

2, AI 發展水平和商業場景的關係

3, 各個 player 的所在位置和差距

具體來說, 我們先從 AI 過去 5 年的發展情況談起, 以人臉識別作為例子, 把人臉從 N 個人中找到的機率在 95%, 縱軸就是可識別的規模(N 的大小).

技術不是趨同, 而是會放大差距, 解鎖場景

2017 年人臉識別最高水平可識別規模在 20 億人, 大概比 2016 年可識別千萬提高兩百倍, 比 2015 年提高了數萬倍. 在 2017 年全球最權威的人臉識別測試中(NIST), 我們比第二名 Vocord 團隊, 在千萬比對測試上領先 2%(Vocord 在另一測試集比騰訊優圖高 10%), 這個就是大家常說的技術水平趨同, 高一兩個百分點沒有意義(引申出難兌現成競爭價值). 這個誤區需要從兩個方面解讀:

第一方面, 演算法在億級, 十億級比對的領先會快速放大到 5%, 20%. 這是一般的演算法性能曲線的規律. 除了可識別規模上的重大差異, 還體現在難(hard)的數據上的識別率差異. 從演算法經驗來說, 黑人, 女性, 小孩, 大年齡跨度, 遮擋等是較難識別的群體和類別. 在這些子類上, 不同演算法之間的性能差異會更大.

超大規模下的評測本身就是一個不簡單的學術命題, 還需要大量的數據支撐, 真正能觀測到 20 億數據下性能的人少之又少, 例如美國很難建立 20 億級的測試集. 這不是訪談一些人臉識別研究從業者就能獲得, 這是誤區的第一個來源.

第二方面, 演算法提高, 擴大可識別規模, 就會解鎖更多商業應用場景. 百萬, 千萬識別規模對應的是身份認證場景, 遠程認證, 手機解鎖都屬於此類. 「技術無差異」的論調在這個場景下倒是可以成立. 但安防刑偵破案對億級和十億比對有剛性需求, 在這些場景下, 不是多識別出幾個罪犯的問題, 而是找出來機率差別十倍以上的, 幾乎就是行與不行的問題. 「非關鍵性應用」的論斷誤導性極強.

在最新的安防案例中, 萬路甚至十萬路攝像頭視頻的人臉搜索, 歸檔對演算法有極高要求, 假定每路人流為萬, 要在萬路視頻中, 搜索性能相當於要求演算法百億, 千億規模上的可識別率. 這比其他場景的性能要求再提高千倍. 以不同演算法為基礎的產品端體驗差異就被同比例放大. 另外, 全球人種的識別, 是反恐, 出入境業務對識別的覆蓋面要求是很很高的.

總結來說, 99% 識別率的演算法和 99.99% 的演算法, 區別在於可解鎖的應用場景. 這些新的場景解鎖, 是最先鋒的演算法團隊和垂直領域的開拓者(比如公安系統的創新團隊)共同努力, 也不是訪談一般的安防從業者就能感知變革的最前沿, 這是誤區的另一個來源.

技術水平的三個層次 VIE: Vision(遠見), Insight(洞見), Execution(執行)

技術實力該如何評估比較呢?最常見的是測試比賽的冠軍, 實際案例, 招投標 PK 成績, 論文等. 這些或許能區分是不是前 10 名的 AI 團隊, 但很難區分最好的團隊. 我對技術的三層解構: Vision, 遠見, 或戰略格局, 技術趨勢判斷;Insight, 洞見, 演算法本質和客觀世界分布規律的理解;Execution, 執行, 演算法實現, 數據獲取, 工程計算平台等. 具體來說:

最基礎的 Execution 就是演算法做到什麼水平, 特別是大體框架已知後, 能快速實現, 包括基礎演算法, 場景數據, 計算實驗平台, 產品應用等. 比如, AlphaGo 出來後, 多快能複現;語音識別多快能追上全球最好的結果. 頂級的 Execution, 不是開源的演算法平台可以彌補. 特定領域的專家能幫助團隊快速提高對應領域 Execution 的水平. 這個層面, 中國團隊應該是世界一流的. Google 如果是世界第一的話, 不論是下棋, 人臉識別, 語音識別等, 中國的水平應該不會比 Facebook, Microsoft, Apple, Amazon 等差, 甚至某些方面稍強些. 大部人比較技術, 基本就在這個層次. 但更重要的, 威力更大的是上面的兩個層次.

再往上一層是 Insight, 考察對技術的深刻認知. 包括演算法模型的數學解釋, 客觀世界分布規律的獨到見解. Insight 指導如何使用數據, 計算力(就是指導如何使用演算法甚至創新演算法). 這層決定能不能比 Google 做得更好, 或者能保持同一發展節奏. 假定擁有深度學習演算法框架, 海量數據在同樣水平, 但是大家對演算法性能調教還有巨大差距. 以人臉識別為例, 我們使用了 2 億張人臉圖片(幾十億張圖片的子集)訓練, 有效模型參數達到 10 億量級, 利用對人臉這個對象的屬性先驗的合理假設, 包括光照, 年齡, 種族, 運動模糊, 成像解析度等, 模型定製, 數據如何組合, 計算如何加速在性能調優和模型學習效率上(就是上面提到的 Execution)都有重大差異. 這就是為什麼擁有演算法, 算力, 數據條件的互聯網巨頭也不見得能在單項 AI 任務上能做到全球前三.

Vision: 預測發展趨勢, 定義未來方向, 想象對生活, 生產的影響. 這除了需要對技術的深刻理解, 還需要對技術的創新能力, 以及技術商業價值的想象力, 創造力. 技術的遠見, 回答 AI 的場景在哪以及多快到來.

強的 Execution, Insight 肯定不錯, 但可能毫無 Vision;最強的 Vision, Insight 肯定一流, 但 Execution 可能很差. VIE 都很強的團隊全球極其稀缺. 用深度學習領域最強的兩位大師 Hinton 和 LeCun 談一下我的感受. 在 2010 年前, 學術界不少人已經在談大數據對機器學習的重要性, Hinton 團隊 2012 年在 LeCun 發明的演算法基礎上, 用了百萬的訓練數據, 在 ImageNet 上取得世界級的突破性進展;同一時期, LeCun 團隊只用了不到十萬的數據. 但是在 Hinton 公布 ImageNet 結果的頭兩個月, LeCun 團隊沒法重現 Hinton 用自己演算法的實驗結果. 在 Hinton 公布演算法實現和技巧後, LeCun 團隊的結果就輕鬆超過了 Hinton 團隊的水平.

兩位大師都擁有超一流的 Vision, 在深度學習方向上堅持三十年. 但是他們 Vision 的差別以及以此帶來的信念差別使得 Insight 的差別(是否追求更深刻見解)在當時可能是巨大的, 對深度學習演算法發揮的突破條件包括訓練數據規模, 模型正則化實現, activation function 選取, GPU 計算等的理解還有顯著差異. 這些在當時, 原理還不清楚時, 可能完全是憑著 Hinton(包括那一期超強的博士生)的直覺. 這種 Insight 的差距, 使得 LeCun 團隊已知所用演算法框架和目標性能但未知關鍵實現時, 也不能重現結果. 但之後, LeCun 團隊擁有更好的 Execution(大規模系統性調優), 能在短時間內演算法性能超過. 這種最牛高手間信念的微妙差異, 到底來源於什麼, 值得深思.

為什麼 Vision 很重要?就像雷達, 對別人來說是盲區, Vision 讓你看見, 看見所以相信, 相信所以平靜. 不僅以此獲得戰略優勢, 還有定力, 排除誘惑和幹擾.

Vision 如何辨別呢?非常難, 甚至幾乎不可能, 只能由同樣有 Vision 的人欣賞. 就像 taste 難以打分一樣, 只能由同樣有 taste 的人欣賞. Vision 帶你看到的, 就是 99% 的專家同行都看不到, 不相信的. 所以, 偉大往往和誤解相伴. LeCun 在深度學習被實際測試數據驗證前, 也很難被美國主流學術圈認可, 甚至發表頂級會議都不是簡單的事, 可如今, 幾乎所有的論文都要貼上深度學習的標籤.

但是判斷過濾沒有 Vision 的團隊, 倒是有跡可循. 一般來說, 無論學術還是創業, 偉大的突破, 都需要多年前後一致的投入和深耕. 隔年換領域或者什麼模式都在做的(垂直, 平台等), 歸類為沒有 Vision 應該沒什麼問題.

有了 VIE 的拆解, 我認為, AI 新時代的壁壘只有人, 最頂級的人. 領軍人物對 AI 技術和商業邊界的未來分布判斷無法替代, 決定 AI 發展基本要素(演算法, 算力, 數據和場景)的所需程度和權重. 擁有頂級 Execution 和 Insight 的團隊, 最知道對演算法有效的數據在哪, 如何標註使用. 擁有頂級 Insight 和 Vision 的團隊, 最早知道技術的突破帶來最具商業價值的場景在哪以及何時到來.

AI 未來: 沒有曆史可以借鑒, 也沒有權威能夠預測

談了 AI 發展, 技術如何解構, 談談 AI 的未來. 基於深度學習的 AI 新時代, 大大不同於 30 年歷史上的 AI, 這是被各種應用, 在實際場景, 大規模數據驗證過性能的技術, 而不只是理論或概念. 儘管過去 5 年的發展, 對得起人們的期待, 今天, 還有不少人擔心新 AI 像過去一樣很快會退潮. 但我認為, AI 新時代只是開始. 我從新 AI 的三個特性簡要闡述:

1, AI 是全新的維度. 這是最重要的, 決定 AI 到底是多大的事.

AI 技術如何創新發展, 如何變革商業, 沒有曆史可以借鑒, 也沒有權威能準確判斷. AI 不僅僅是一個技術, AI 突破還能突破所有技術包括人機交互, 搜索, 機器人, 晶片計算, 醫學, 製藥等科學領域的幾乎所有學科.

2, AI 的發展速度快, 跳躍性強

從 S 曲線中, 可以看到過去 5 年, AI 的發展及其迅猛, 單門類(人臉識別)演算法有了萬倍的增長. 但我對未來更加憧憬, 即 S 曲線中 2018 年之後的曲線有多陡. AI 發展帶來的多維度技術和各場景深度結合, 疊加會帶來更有衝擊力的體驗. 從多技術維度來說, 從視覺, 到聽覺, 語義理解, 運動控制會在之後幾年都會快速突破;和晶片結合, 端智能滲透到與用戶的最後 30 公分的交互體驗, 從 Internet Of Things 向 Internet Of Intelligence 跨越, 讓智能無處不在.

3, AI 領先一步, 會帶來巨大勢能

在 S 曲線中, 處在不同位置的團隊, 優勢不只是橫軸時間的差距, 而是技術領先帶來的累積效應(曲線積分)以及更多元(多條 AI 技術曲線)AI 技術的疊加, 這使得 AI 能有跨行業的摧毀性. 不僅僅決定某個行業, 第一名和第二名的差距或位置關係, 還能使得 AI 領先的行業的領導者撬動 AI 意識落後的行業.

AI 未來, 無與倫比;因為看見, 所以相信.