商湯科技 CEO 徐立: 科學向左, 產業向右, 如何找到交點?

在人工智慧時代, 科學和產業的結合成為了一場耐力賽.

在科技發展的曆史上, 科學和產業的結合一直是個很難的問題. 商湯科技聯合創始人兼 CEO 徐立看來, 在人工智慧時代, 兩者的結合更成為了一場耐力賽, 並且, 這項任務正在變得更加緊迫.

對於 2014 年成立的商湯科技來說, 團隊一直有著濃鬱的學術氛圍, 公司與國內外學術團隊也有密切合作. 但科學和產業的交匯點一定是雙輪驅動的, 在這個進程中, 政策, 資本, 技術, 落地規模, 場景應用等各個因素缺一不可. 從商湯科技角度來說, 他們更關注計算機視覺, 人工智慧眼睛這個部分, 希望能夠幫人看清, 看懂這個世界. 人工智慧在計算視覺領域有很多落地形式, 這些形式帶來了感知上的突破. 比如, 攝像頭在環境非常黑時也能完美成像, AI 還可以幫助專家讀圖, 但在這之前, 必須要明確問題並由人來打通整個流程.

徐立認為, 從商湯的嘗試來看, 人工智慧如今恰好來到了一個非常好的時代, 外部要素正促進 AI 加速落地.

以下是徐立在極客公園 2018 創新大會上的演講全文(經極客公園編輯)

科學和產業: 從背道而馳到走向結合

大家好, 我是商湯科技的徐立.

大家都知道人工智慧這一波浪潮肯定和很多科學家創業有非常大的關係, 某種意義上, 科學產業在現在這個浪口. 但是, 這其實只是在最近這幾年才發生的事情, 我想起來我在讀書的時候, 一直有這麼一個段子, 我們要去讀博士, 很多海外名校的教授就說, 其實讀博士不是一個致富的路徑, 一般肯定是有錢了再去讀博士, 做科學家, 而不是說做了科學家, 為了有錢, 所以這兩個邏輯是反的.

其實在中世紀的時候, 基本上都是說, 貴族才能去做真正的科學研究, 就是因為科學和產業之間的矛盾和衝突非常大, 這兩個是截然不同的點. 為什麼到現在這個階段, 似乎這兩條線走到了一個交叉路口, 我們其實可以來看一下行業上明顯的變化.

科學和產業有一個很大的不同點, 我們定義了科學家:

第一, 大家認真的做科學研究, 專註於技術突破, 基礎理論的突破, 我們想象得到, 其實很多時候, 甚至 100 年前, 很多的理論都進行了創新和發展, 但是真正意義上能夠和產業結合的很少, 我們大家耳熟能詳的有各種各樣的科學家, 但是真正意義上科學的成功, 和最後的產業落地相距比較遠, 產業關注什麼事情呢?關注真正的盈利能力, 標準化, 快速變現, 解決方案, 以及說, 真正的產業, 實際上來自於市場的需求驅動.

所以, 科學和產業還是一個背道而馳的, 完全不一樣的這麼一個概念.

既然兩者差的這麼遠, 在這種情況下, 我們怎麼看待這個事情呢?在目前這個階段, 到底發生了什麼樣的事情, 使得科學和產業能夠在一個地方進行交匯呢?我覺得很關鍵的一點是, 科學和產業的交匯點一定是雙輪驅動的, 什麼叫雙輪驅動呢?

第一, 技術核心突破來得比較快一點, 科學發展會有那麼多年, 科技是平穩發展的, 也就是說, 技術突破是增量性的. 在這個過程當中理論研究非常非常重要, 但是這些研究未必能夠真正的被大家應用到我們認為的, 認知的商業上去.

反過來, 有些時候科技是跳躍式的發展, 它不是一個直線性, 增量性. 比如說, 這一波人工智慧的突破, 其實是某種意義上, 把傳統的人工指導的智能, 轉化成純數據驅動的智能, 包括我們大家現在耳熟能詳的深度學習也好, 基於深度學習純數據驅動的方法也好, 其實是一個顛覆式的變化, 而不是一個增量式的變化. 只有在這種狀態下, 才能夠帶來完全不同的新的生產力.

另外一個方向我們講產業, 產業來看, 需要具備什麼樣的條件呢?我們也可以看, 剛才我講的顛覆式的科技發展, 其實在曆史上也有發生, 比如說一些新材料, 新能源的發現, 其實都有, 但是這個未必真正意義上等價於它能夠進行產業變現, 能夠進行變化.

比如說, 我們講到鎢絲, 這個材料的發現其實已經很久了, 真正被用到燈泡裡面, 作為一個燈的話, 還是需要從現實的場景倒推到材料的突破和材料的革命, 這是一個非常重要的點.

從產業界來講, 到底什麼是重要的呢?產業界很重要的事情在於, 產業的需求真正意義上到了一個爆發的臨界點, 也就是說普羅大眾, 我們其實被足夠好的教育了. 很多時候, 科技有進步, 能夠帶來的是顛覆式的勞動力, 生產力. 另外, 市場被教育了, 能夠帶來的是大家被認知的需求, 有了這兩個東西, 我們就覺得科學技術的推進和產業的變化, 能夠合在一起, 引領人類的進步, 改變人類的生活, 這個是非常重要的.

商湯科技的嘗試

從我們的角度, 商湯關注的是計算機視覺, 人工智慧眼睛的這個部分, 我們希望能夠幫人看清, 看懂這個世界, 從這個角度來講, 科學家到底在做什麼呢?科學家未來延展方向, 很大程度上在於感知層面. 我們可以知道, 看清核心的本質, 是在於說, 我有更好的感知的能力, 而感知的能力不光是從硬體的角度突破, 演算法, 理論, 以及背後的支撐, 其實是帶來了感知能力核心突破的概念.

現在大部分的感知器, 其實處理的都是我們認為的可見光, 大家也可以看到, 這一兩年在視覺領域的突破, 從可見光傳到了不可見光, 我們可以有 UV 的攝像頭, 可以有紅外的攝像頭, 遠紅外, 近紅外的攝像頭, 甚至還有各種熱敏的攝像頭, 這些攝像頭開啟的是一個完全不一樣的應用範疇.

舉個例子, 現在 iPhone X 可以支援人臉解鎖, 或者支付, 其實就是因為我們的感知能力已經從可見光轉到我們認為的近紅外. 在近紅外的情況下, 我們可以做到更好的真人識別, 更好的驗證, 所以給我們真正的支付, 或者說線上線下場景打通起到了保駕護航的作用.

另外我們可以看到, 路面上的攝像頭很多, 一到了晚上, 很多人認為攝像頭看不到, 但是攝像頭的感知能力現在已經達到了星光級, 甚至是極光級, 什麼概念?在非常黑的情況下, 它都可以形成一個非常完美的成像, 地上的攝像頭如此, 天上的攝像頭也是如此.

商湯一直認為, 目前來看, 行業發展最大的是地面的攝像頭的應用, 但是未來, 天上攝像頭越來越多的情況下, 大家都面臨同樣的處理數據的問題, 所以在遙感成像當中, 很早就用了超能力的超感知.

比如說遙感影像可以有各種不同光譜, 可以檢測雲, 雪, 區分地塊, 在做各式各樣不同的區域, 可以達到不同的處理, 把不同景的數據進行連接和拼接. 所以我們在基礎的感知能力上有一個很核心的提升, 這是在可見光範疇之內的延伸.

另外, 我們真實人感知的場景是 3D 立體的, 而圖片永遠是 2D 的, 而 2D 到 2.5D 到 3D 的延伸, 就會給我們的應用帶來非常不一樣的變化.

其實我們一直認為這樣對場景的感知帶來的是新的交互能力, 而交互能力的改變, 一直是互聯網的革命開始. 我不知道大家是否記得 iPhone 滑動式的交互剛出來的時候有一款遊戲非常火爆叫《憤怒的小鳥》, 是因為它設計的理念, 非常吻合手機的人機交互的模式, 但是當我們的感知系統更好地感知 3D, 可以把 3D 場景當中的物體更好地呈現出來的時候, 其實有可能我們下一個新的交互模式就會產生了. 這個交互模式是基於新的 3D 感知以及 AR/VR/MR 這樣的技術.

大家可以看這三個場景, 左邊的是簡單的利用 SLAM 的技術, 在感知 3D 情況下加上一些不一樣的場景內容. 中間是我們在辦公室, 平地無中生有做了一隻小動物和一顆樹的渲染. 可以看到, 這種渲染模式會越來越真實, 從原始的 2D 照片, 已經凸顯到了整個 3D 的應用當中. 而且運用是一個普通的攝象頭.

最右邊的是我們在桌上擺了一些真實的東西, 兩隻小怪物是假的, 大家如果看背後的椅子, 蝴蝶, 這些都是假的. 這塊應用就帶來了很多不一樣的體驗.

試想一下, 如果未來咱們的單個攝像頭的手機, 就能給大家帶來一些不一樣的 3D 體驗的時候, 我想 2018 年, 2019 年一定會產生越來越多的遊戲場景, 社交場景, 是基於和現實更完整的融合, 這就是我們講的科學家做的是感知能力提升的概念.

從理論基礎來說, 科學家做大數據驅動人工智慧的時候, 我們會發現, 有很多先天性的不足, 目前來看, 缺少可解的事情.

以前如果說人工指導的智能, 是什麼概念, 我們用大數據做統計學習, 統計學習人類會加很多的先驗知識, 我們認為在座的人的年齡分布是均勻分布的或者是常態分佈, 這些分布都是我加的先驗. 我加了先驗, 某種意義對於預測是有很大的指作用的.

但是, 如果當數據越來越大的時候, 可能我對這個數據不做先驗假設了, 這種情況下會帶來一個問題, 所有的規律都是從數據當中自己學出來的, 會產生一個很大的缺陷, 叫做缺少可解釋性.

另外我們真正意義上要解決的一個大數據的問題是, 可能說我們需要給數據所認知的, 機器認知的更多的給出一些標註, 所謂的標註就是給一些正確答案, 但是並不是所有的東西都有正確答案的, 所以我們還缺少監督的資訊.

在一些特定的場景下, 譬如說醫療, 我們見過一個醫院的研究所, 他說我們這邊會有兩個國家級的老專家, 這兩個老專家也希望把知識能夠真正意義上的教會電腦學習, 但是就因為這兩個老專家能夠看出片子上早期疾病的, 全中國就沒有人做這件事情, 問我們能不能做.

其實機器來看定義很清晰的事情, 機器目前能做的事情就是定義輸出輸入非常清晰, 我給出一個片子, 它能夠指出這是不是早期的某種病患, 這件事情是定義非常清晰的事情, 可惜的是樣本數太少, 沒有足夠的樣本.

如果我們要做這樣的訓練, 通常需要一百萬的數據, 老專家一天能看多少片子, 香港醫生一天閱片不能超過 8 張, 超過 8 張稱之為疲勞閱片, 是要上報的.

如果按照一天讀 10 張的概念, 老專家要進行 300 年—500 年的診斷, 才能夠提供足夠的數據, 且不論老專家年紀已經很大了, 即使是從很小的時候就具備老專家的能力了, 這樣孜孜不倦地在幹這一件事情, 其實我覺得也是非常難的. 這就是說沒有這樣的新連樣本, 同時還會跨領域的, 多模態的各種各樣的交互變化.

所以有了這些以後, 其實我們目前科學家在做的事情是把他的理論基礎往上查, 把原來的這些問題轉化成新的研究問題, 譬如說多模態, 多任務的學習, 弱監督和無監督的學習, 甚至是說, 如果沒有樣本的情況下, 我遷移樣本, 甚至是生成樣本的學習.

還有就是我可以進行這樣的迴路打通, 我雖然不知道這個事情是不是一個很好的答案, 但是我可以通過增強學習來做, 幫助我們打通.

舉個例子, 大家看看這個描述有沒有什麼問題. 小鳥有白色的胸部, 淺灰色的頭部和黑色的翅膀和尾巴. 大家會覺得不會特別驚訝, 但是實際上這個過程是反的, 是我們給了一個中文的描述, 他生成了這樣的照片, 也就是說全世界目前不存在任何一隻鳥長得跟這張照片上的鳥一樣的, 這就是講, 我們可以真正意義上打通, 從文本的描述生成樣本數據, 樣本案例.

再往後推演, 如果說能夠用文本生成圖片, 是不是可以用文本生成視頻, 導演可能就不用幹活了, 我寫一個本子就能夠生成視頻. 科學就是漸漸的把一些原本覺得任何不可能的事情變為可能.

可以看到有了這樣的技術之後, 有可能大家以後再也不要輕信朋友圈轉發的內容, 萬事都有可能. 但是, 這些科學技術的突破, 從感知的能力, 理論基礎提升來說, 其實發生的變化和真正的產業還是有很長的距離.

我們來看產業界到底做了什麼事情呢?產業的 AI 突破, 首先就是說, 雲+端的模式打通, 雲端就是伺服器, 計算能力的提升, 而端就是從各種設備端, 有越來越強的計算能力, 為了迎接 AI 技術的突破, 其實有越來越多的設備已經準備好了智能, 或者被智能化, 目前就是看, 有沒有合適的演算法放到我的車裡面, 機器人裡面, 手機裡面, 甚至是各種各樣的手持設備上, 這個是產業發生的很有意思的變化.

從我們現在來看, AI 技術應用趨勢是多場景, 多維聯動, 全棧式的創新能力, 從底層的演算法到中間各式各樣的技術的模組, 再到上面核心的應用, 這部分核心應用, 其實真正意義上, 從產業來的一個真實的需求, 這裡面的需求和要求還不一樣.

因為很多情況下, 我們也跟很多企業打過交道, 企業說, 我們需要被 AI 化. 這是一個命題, 找到了一堆問題, 這樣的一些問題我們人都做不好, 是不是用 AI 的方法來給你調調, 我想說, 不可能, 很難做到.

AI 能夠做到什麼事情呢?剛才我講, 當一個問題的定義, 輸入, 輸出, 清晰, 並且有人來打通這個流程的時候, 用 AI 來替換這些能力, 是會比較自然的.

所以 AI 做的事情只是在應用場景當中去提升它的生產效率, 這個事情是能做的, 但是如果人都不知道這件事情怎麼做的情況下, 你要讓 AI 幫助你梳理, 歸納, 演繹, 這是非常艱難的. 所以我覺得這個場景帶來的作用, 能夠把真實的需求梳理清楚, 到這個行業來.

如何推動科學與產業融合的進程

產業和科學的融合, 我們覺得有兩大塊外部要素:

要素一, 溫度環境.

要素二, 從工業化的角度來看, 我們講了三個化.

外部的環境是什麼呢?現在我看, 外部的管理其實起了一個非常好的作用, 加速, 催化的作用, 中國是有史以來第一個從國家的層面推動整個 AI 的發展, 其實你可以看歐洲, 美國大部分的國家, 其實國家起的是建議的事情, 但是中國起的是整個的推進, 所以政策加溫, 包括一些白皮書的制訂, 往往意義上是從全民, 全國的角度來說, 幫助產業落地.

第二個是資本增壓. 我們也可以看到, 現在這個階段, 資本對於人工智慧, 對於技術的這樣一個擁抱, 其實使得產業從原始的技術核心突破, 到工業落地當中的鏈條縮短了很多.

第三個很關鍵的一點就是資源齊備, 你要進行核反應, 你還是得有油.

所謂資源齊備就在於, 目前來看計算能力達到了一定的程度, 計算的資源, 甚至是基於上面的平台, 和一些作業系統的研究, 都已經達到了一個點, 所以說外部環境已經是可以讓科學向產業進行很好的轉化.

從產業本身來說, 是需要三個化:

第一, 技術產品化.

沒有一個 AI 的企業是真正通過賣技術來變現的, 這是非常難的. 一個核心技術的突破, 就像我剛才講的, 如果說, 我們無中生有生成這個鳥, 但是需要把它變成商業變現的時候, 一定要有相對應的產品來做載體, 這個步驟其實是現在大部分的企業逐步完成的, 技術產品化. 我們可以變成一種精準的識別能力, 或者一種晶片, 雲和端的這兩種模式是技術產品化的核心突破.

第二, 落地規模化.

如果說, 我們需要把一個技術真正意義上形成一個足夠大的影響力, 我們需要它有一個規模化的能力, 在一個城市, 兩個城市覆蓋沒有什麼用, 我們需要有一個快速增長的能力, 或者說, 這些東西能夠被標準化的嵌入到某種產品當中, 那麼它的推廣就會變得非常成功.

其實現在很多大家使用的設備當中, 已經生成了非常多的 AI, 就像剛才我們用手機拍照, 現在一個普通的攝像頭就能夠達到單反虛化的樣子, 其實這就是一種 AI 的技術, 落地到手機產品當中的集中體現.

第三, AI 在哪個行業上, 能夠形成行業的急劇的變化, 並不是很清晰, 所以, 場景多元化某種意義上是可以把各個技術之間形成一個很好的新的技術.

我們可以看到, 從公共的服務, 個人的應用, 整個社會管理之間都會有這樣的變化, 其實有點像我們在講第一次工業革命的時候, 技術突破了, 我們有很好的蒸汽機, 但是如果沒有多元化的場景應用, 其實技術真實變現, 真實推進產業革命, 其實還是有很長的距離, 當時的應用是:

第一, 我可以做大規模的工業製造.

第二, 我可以做農業的收割, 灌溉.

第三, 我甚至可以來做鐵路, 交通.

當時世界上市值最大的企業都是做鐵路做運輸的.

所以從這個角度來看, 技術的場景多元化, 也是這波 AI 落地很核心的要素. 譬如說個人應用, 手機一定會有這樣那樣的一些應用場景, 右邊是我們當時推出的幫助圖片去霧霾的手機應用, 也就是說你的照相機, 如果拍了北京的霧霾天, 不用擔心點一鍵就可以消除霧霾天.

中間是一些相簿的管理, 我相信現在大家拍的照片, 已經可以根據人來進行管理, 我自己的照片, 我的朋友, 小孩和家人, 可以分成不同的組, 未來可以根據更多的維度和標籤進行切分, 比如說可以根據年齡和親密程度, 機器都可以通過自動的方法來幫你分類, 梳理.

最左邊的照片, 我們講的是說讓 AI 具有更多的創造元素, 其實我們是可以在視頻當中類比非常多的藝術化的效果, 甚至可以學習梵谷, 學習莫奈, 可以看到未來手機拍攝的一張照片, 前段時間大家在模仿齊白石的蝦, 其實我覺得不用模仿了, 你拍一張真的吃的蝦用個演算法, 立馬就可以變成齊白石的風格.

所以這種 AI 和個人應用會給大家帶來非常多的娛樂化的過程. 另外一個角度是 AI 與整個社會的治理管理, 還會起到非常大的深度結合.

我們可以想象目前這個狀態下, 整個社會的治理還是脫離的, 即使使用技術沒有全盤來看, 是想著我們從衣食住行各個方面, 甚至是從地面到天空, 每個角度, 如果都用演算法來進行演練和演化的話, 可以做一個整體化的規劃.

比如說我們的出行, 一方面在車內的 AI 可以幫助無人駕駛, 避障, 更好地提供導航的服務. 另一方面在天上的 AI, 科技通過即時地感知到地面的情況, 甚至對道路進行很好地規劃, 是天和地的連接達到更好的協同作用.

有可能在不遠的未來, 很多事情都可以有更好的變化. 這是我們能夠看到技術突破和場景能夠有一個很大連接的.

那終極的 AI 是什麼?不是產品, 是公共服務, 未來, 因為 AI 能做的事情是前人前面, 像櫃檯上的事情, 我們在櫃檯上提供的各種各樣的認證, 人是作為一個輔助對接的口, 再往後我相信這個對接的口, 也會被 AI 所替代, 那麼我們未來來提供的服務, 真正意義上可以做到根據每個人不同的狀態給出每個人不同的定製化的服務.

講了那麼多, 我說科學和產業, 還是說中間會有很長的路把這兩個東西連接, 所以我們說即使從我們的 AI 企業來看, AI 的落地也是一場耐力賽. 我們希望科學和產業, 最後能夠在一個地點上結合, 目前來看, 我們是處在一個非常好的時代, 因為周圍的環境催化正使得這個事情加速.

所以我們也希望在這個階段, AI 真的可以幫助大家把每個人的生活變得更好. 謝謝大家.