他表示, 總結起來做人工智慧的跟阿里的理念其實相似, 阿里講 '讓天下沒有難做的生意' , 做人工智慧是講 '讓天下沒有難吹的牛' .
他還分享了商湯科技在計算機視覺方面的研究成果, 比如如何分辨雲和雪和地面的物體, 用人工智慧, 映像識別技術, 可以做的比人更精準, 他舉例到, 十一的時候很多人去旅遊, 去登山, 山上可以看到半山腰有些雲, 登到山上以後發現進到雲裡就變成霧了, 拍照就不太清晰, 我們有個演算法可以幫你把霧去掉.
湯曉鷗還介紹了目前有關城市大腦的應用實踐.
1, 人臉識別已經可以做到沒有任何人工配合的情況下即時的識別人物, 抓捕犯人, 在廣州, 深圳, 重慶等幾十個城市都已經開始幫助公安解決了大量的案件, 抓了很多犯人.
2, 人群, 現在可以在上海外灘這樣的公共場合, 即時判斷每一個點的人群的密度, 人數, 進來多少人, 出去多少人, 還有人流有沒有逆行等特殊情況, 這樣可以防止踩踏事件.
3, 視頻結構化, 可以把視頻裡面所有的人, 車, 非機動車, 單車檢測, 追蹤, 識別出來屬性, 比如這個人穿什麼衣服, 男的女的, 多大年齡, 車什麼牌子, 哪年生產的, 這些東西都從視頻處理成文本檔案, 你可以進行對應物體的快速搜索.
以下是湯曉鷗教授演講實錄:
湯曉鷗: 我先幫大會發一個通知, 今天午飯取消了, 改下午茶了, 大家不著急, 慢慢聽吧.
非常感謝阿里的邀請, 尤其是做壓軸演講, 我跟阿里說太客氣了, 壓軸這麼重要的演講應該馬總做, 我做個簡單的開場演講就差不多了, 後來他們堅持我在午飯時間做壓軸.
另外他們還告訴我說今天有大概一千萬人在網上看直播, 所以我非常緊張, 我就做了個一百頁的PPT, 我想十萬人一頁也對得起觀眾了, 但是組委會就非常緊張, 一直問我說40分鐘講一百頁, 會不會超時, 我就跟他們保證說, 放心吧, 一定會的. 昨天奧委會的客人講到奧運要更快更高更強, 那雲棲大會的特點就是要更長.
前些時候我跟馬化騰還有一些學者在清華做了一次對話, 我當時當著馬化騰先生的面提了一些意見. 今天我到了阿里這裡, 我想我也不會客氣的, 作為學者, 我們就是要敢於提意見. 所以當時我敢於當面給Pony (馬化騰) 提意見, 今天 (到了阿里這) 我就準備在背後再給Pony提一些意見 (此處玩笑, 請勿當真) .
現在言歸正傳, 今天我講的題目是《人工智慧的雲中漫步》. 人工智慧其實我也聽了很多人講, 我自己也講了很多, 我覺得總結起來做人工智慧的跟阿里的理念其實非常相似. 阿里是講 '讓天下沒有難做的生意' , 做人工智慧的是講 '讓天下沒有難吹的牛' : ) .
這兩天大會聽大家講了半天人工智慧, 講了半天的雲, 一直到今天為止, 一直到現在為止, 我們其實一直沒有看到真正的雲, 現在我給大家看一下.
這是高分一號衛星拍的雲圖. 其實我們發射衛星拍攝這些映像, 是為了分析地面上的情況. 高分一號拍出來的圖, 有雲有雪, 遮蓋了地貌, 如何分辨雲和雪和地面的物體, 我們用人工智慧, 映像識別技術, 可以做的比人更精準. 大家可以看到褐色的是雪, 白色的雲, 綠色的是物體. 我們識別的這些雲以後, 還能用演算法把這些雲去掉了, 這樣衛星就可以識別雲下面的東西.
十一的時候我想很多人去旅遊, 去登山, 山上可以看到半山腰有些雲, 登到山上以後發現進到雲裡就變成霧了, 拍照就不太清晰, 我們有個演算法可以幫你把霧去掉. 還有你航拍的時候, 有一些雲, 霧, 我們也可以用演算法即時的在視頻裡把它去掉.
大家想我們杭州好像很少有霧霾, 這個跟杭州有什麼關係? 確實也沒什麼關係, 當年做的時候, 是專門給北京做的, 給北京量身定製的, 奧運會時直接把霧去掉了, 藍天白雲的, 我們把這個叫商湯藍.
這個演算法, 這個應用我們已經把它做到微博相機上成為產品了, 去年就已經上線了.
如果這麼一直講下去, 阿里的人可能急了, 我們是阿里雲, 不是阿里氣象局. 當然, 我們講的是虛擬雲, 雲計算, 我們其實在不知不覺間已經生活在雲中間了, 我們生活在物理雲下面, 實際上我們也生活在虛擬雲上面. 今天就給大家講你是如何在雲上生活一天的, 大概要講8個小時.
一開始, 早上起來要化妝. 就是拿著手機可以當鏡子, 可以做美顏, 換衣服, 用各種特效效果看一整天該穿什麼. 這個化妝下來大概的時間從8點開始的, 最後結束了以後, 就到9點了, 一般女孩的話大概也確實需要一個小時化妝, 最後通過美顏, 增強現實 (AR) 這些特效, 不知道為什麼最後這張圖成兔女郎了.
然後接著這些AR技術還可以應用在其它的場景上, 比如社交場景應用, 你們現在看到的這些拍照APP, 直播APP, 有很多AR特效, 其實絕大部分都是基於我們提供的人工智慧技術, 比如人臉的106點和最新的240點的追蹤分析, 是我們定義的行業標準.
我們不但做人臉, 手勢識別, 現在已經做到三維的SLAM特效了, 大家可能看過這種特效, 遊戲裡面可以把虛擬物體加到這個現實世界裡面, 但是以前看的都是在一台很強的計算機上算出來的, 現在我們這個是在手機端, 手機上即時算出來, 這是非常難的事情.
還有你剛才為什麼花了一個小時換衣服呢? 要一件一件換, 不合適換另一件, 很麻煩. 我們實際上可以用計算機幫你換衣服, 計算機生成衣服. 這個用什麼做的呢? 用基於自然語言處理的映像映像生成技術, 比如說我要一隻小鳥, 有白色的胸脯, 灰色的頭部, 就生成這樣的小鳥; 再要一隻紅色的小鳥, 黑色的翅膀, 就再對應生成出來映像. 這都是計算機自動的根據你的語言描述生成的, 或者是花也一樣, 可以生成一些不同的花.
更實用的應用是什麼呢? 是衣服. 我可以說我想穿一件淺藍色的連衣裙就換成淺藍色的連衣裙, 或者黑色無袖外套就給你換上了, 這樣換衣服的速度非常快, 幾分鐘就完事了.
十點鐘要出門了. 出門走路的時候, 可能沒有什麼感覺, 但實際上每個城市裡, 剛才講都有幾十萬台甚至百萬台相機, 這些相機做的事情是把人, 車, 物體都檢測, 識別, 分析出來.
今天講了很多關於城市大腦的問題.
我們要解決這些問題還是需要核心技術, 來一樣一樣完成這些任務. 首先我們人臉識別, 已經可以做到沒有任何人工配合的情況下即時的識別人物, 抓捕犯人, 在廣州, 深圳, 重慶等幾十個城市都已經開始幫助公安解決了大量的案件, 抓了很多犯人.
人群, 我們可以在上海外灘這樣的公共場合, 即時判斷每一個點的人群的密度, 人數, 進來多少人, 出去多少人, 還有人流有沒有逆行等特殊情況, 這樣可以防止踩踏事件.
再就是視頻結構化, 可以把視頻裡面所有的人, 車, 非機動車, 單車檢測, 追蹤, 識別出來屬性, 比如這個人穿什麼衣服, 男的女的, 多大年齡, 車什麼牌子, 哪年生產的, 這些東西都從視頻處理成文本檔案, 你可以進行對應物體的快速搜索.
所以其實你在走在路上的時候, 所有的這些資訊都是可以記錄下來的. 所以以後如果做壞事會越來越難. 大家如果現在還有什麼事沒做趕緊做, 以後再做相對會困難很多了.
12點鐘大家可能出去跟朋友玩了. 拍一些自拍照, 其實拍的時候, 就是用了我們的一些視頻處理的技術, 比如把一個手機拍照拍成單反的效果, 這也是我們做的技術, 先拍照後聚焦, 拍完點什麼地方就聚焦到什麼地方. 另外在拍之前, 我就想看看單反預覽效果是什麼樣子的, 所以這時候你在動的時候, 效果就要顯示出來, 這就是要即時視頻級的處理. 視頻上能夠即時把深度資訊算出來, 預覽做出來. 這些技術已經在OPPO R9S和R11用了很長時間了, 包括裡面的人臉技術都是使用我們的技術支援.
還有手機上可以做一些智能相簿的特效, 處理. 計算機識別你的照片內容, 然後根據內容打標籤, 分類管理.
這些特效, 大家現在手機上可能節日期間也會用到一些這些應用, 比如把卡通圖片裡的臉換成自己小孩的臉. 但是我給你演示這些是我們十年前做的, 我們十年前已經做到這個效果了, 當然那個時候是在計算機上做出來的, 現在把這些技術可以做到手機上了.
我們跟小米合作做了小米智能相簿, 跟華為合作做了華為智能相簿, 跟微博合作, 把大V的照片管理做起來.
兩點多鐘, 你照完相了, 吃完飯回來, 對照片想處理, 做一些新的藝術化的濾鏡.
感覺我們公司的人基本不幹活, 整天在玩手機.
處理出來這些特效, 這是在映像上做成的特效, 其實這是我們兩年前做的工作, 現在滿大街都是. 我們現在又做了新的工作, 是視頻上即時也可以做出特效, 而且可以做出各種特效.
4點鐘, 大家可以出去玩一玩, 可以做一些體育運動了, 大家可以想像一下, 我們公司4點鐘就下班了, 開始去玩了.
這個就是我們在即時的把人體的整個結構都能跟蹤出來, 大家可能覺得這個不是什麼新鮮事, 因為幾年前Kinect體感攝像頭就能做的, 但是原來是一個昂貴的特殊設備做的, 設備有兩個攝像頭還有雷射投影, 我們是用一個幾塊錢的單個webcam, 可以即時做這件事情, 所以這個應用可以在各種的智能家居, 自動駕駛, 各種地方做到實用.
再往下用這些技術還可以做體育運動的分析. 昨天講到奧委會跟阿里合作, 我們也在跟國家體育總局做合作. 這個大家可以看到我們用智能分析的方法跟蹤運動員的動作. 然後也可以幫助運動員做康複的訓練. 所以昨天奧委會朋友講, 奧運會要做到更高, 更快, 更強, 更聰明, 那其實我現在給你講的, 就是如何做到更聰明.
同時我們可以用跟蹤的演算法, 然後把整個畫面分析清楚, 用自然語言描述視頻裡運動員到底在幹什麼.
然後大家下班的時候要坐車回家了. 這時候可以乘坐由我們自動駕駛技術支援的汽車. 自動駕駛裡面我們做了六個大的方向, 三十幾項技術, 目前跟全球前五大車企其中一個頂級的廠商進行合作.
下面看一下刷臉支付場景, 因為你下班了, 總是要買東西的. 可以用刷臉支付, 阿里無人店可以用這些技術. 還有一些門禁系統, 酒店, 機場等等應用, 所有這些地方其實現都在用我們做的人臉識別技術, 現在的準確率從當年第一次超過人眼睛極限的時候, 從97.5%, 到99.15%, 到99.55%, 一直做到萬分之一, 十萬分之一, 百萬分之一, 今天我們早就做到億分之一, 實際上已經達到了八位數密碼的精度, 可以做各種應用了.
到了晚上, 這個視頻裡, 我們分析人的運動方向. 這些對整個分析視頻的結構也是非常重要的技術.
我們綜合前面這些技術, 可以把整個這個視頻場景分析全部做出來. 可以看到左下角會講你在什麼地方, 什麼樣的活動, 每個人是哪一個人, 哪一個演員, 穿的什麼衣服, 後面有什麼物體, 騎的什麼>機車, 所有這些結構化都可以做出來, 大家網上看到很多公司用這兩段視頻結果演示做宣傳, 這個原創是我們做的, 視頻分析演示也是我們做的. 這是《歡樂頌》, 本來想做一個更新的, 想用《我的前半生》, 後來一想我的前半生也快過去了, 還是做《歡樂頌》了.
剛才很多是我們已經落地的產品, 是由我們的400多家合作廠商真正落地來用了的. 下面還有一些新的技術突破, 明天就可以馬上用出去, 就是因為這些新的技術突破, 才繼續推動做出來新的應用.
首先講運動監測. 還是回到奧運會這個應用, 實際上我們可以在體育的視頻裡面把這些射門的鏡頭提取出來, 兩個小時的比賽可以很快縮到幾分鐘, 可以完全自動做的.
或者田徑比賽, 真的很漫長的, 但是精彩的鏡頭, 百米, 跳高那幾個鏡頭, 就是那幾塊, 我們可以自動的識別提取出來, 同時你也可以進行描述, 要求怎麼樣提取出來, 你感興趣的部分.
然後還可以進行搜索. 比如你要搜索音樂表演的視頻, 戰爭場面的視頻, 都可以自動搜索出來.
或者你要想做電影自動理解. 比如可以明白這個鏡頭到底是災難的鏡頭還是浪漫的鏡頭, 用我們前面說的技術來分析整個場景到底是什麼樣的, 紅線代表浪漫的, 藍色是災難的, 即時分析鏡頭. 或者說他們在吵架還是浪漫的鏡頭. 都可以即時分析出來.
可以用自然語言來描述來搜索電影的場景. 就是你可以說一段話, 它就把那一段鏡頭的場景把它給搜出來, 同時把所有人, 物體和各種東西都檢測出來.
還有對體育場景進行分析, 就是說可以直接對運動視頻進行描述, 自動用自然語言描述到底發生了什麼事情, 這個時候其實我們就不需要播音員了, 機器自動分析運動場景做什麼, 直接給大家講解, 就像一個專業播音員一樣.
還有映像的分割, 以前大家講映像分割都是前景和背景分開, 現在做的分割是不但把前景和背景分開, 而且還可以像素級地把前景的每一個物體分開, 前面有很多跳舞的, 每一個人都標註出來, 每一個物體, 和背景都分割開來, 就可以做很多很多各種各樣的特效.
還有就是判斷兩個人的關係, 如果你在網上放了照片, 我們根據你這兩個人的姿勢和兩個人的表情, 分析出來你們兩個人的關係. 這個有什麼用呢? 比如說你跟一個很有錢的人照相, 分析的結果是很友好, 說明你認識有錢人這樣可能你的可信度就增高了, 我就可以把錢借給你了, 可以做徵信的一個維度. 還有我小孩的照片, 他女朋友比較多, 想知道哪個是他真正的女朋友, 可以分析識別一下, 後來發現每一個都是, 他跟我一樣對每一個都很專一.
我給學生髮了一些比較難處理的關係的照片, 比如銘銘6個月的時候跟他第一個女朋友的照片, 第一個關係分析的還可以, 第二個也分析出來了. 後面兩張照片就難多了, 最後基本上搞不清楚他在幹什麼了, 當然最後這張的這種探索精神還是值得敬佩的.
我們以前在微軟的時候, 出去玩的時候照了照片, 我也拿過來讓機器分析, 這是我的兩個同事照的我們在九寨溝的照片, 機器分析出來的結果不明白真正的含義是什麼? (這兩個男同事的背影合影) 實際的含義是我們在演繹《斷背山》這個電影. 下面這幾張就更難的讓機器分析了. 一個人的背影還好, 兩個人也可以理解, 出來三個人的背影, 機器就糊塗了, 到四個人的時候可更糊塗了, 五個人就更接受不了了. 所以這種對機器來說很難理解, 對我們來說, 我們是很開心的可以笑出來. 我想在這裡, 提出一個新研究課題, 提出一個挑戰吧, 就叫XO Challenge吧, 就是我們怎麼能讓機器笑? 就是你怎麼能讓機器識別一張映像是搞笑的, 我們人可以分辨, 機器能不能做到? 我希望我們研究人員以後可以試試, 看看我們是不是能夠讓機器看到這些映像, 也會會心一笑.
最後我用一個我們研究的例子來講一下原創的難度, 我剛才講的每一個技術其實都不是那麼簡單的, 都不是說一拍腦袋一下就做出來的, 有非常多的事情要做的, 這個例子是映像超解析度增強, 就是我們怎麼把一張圖放的很大, 能夠恢複的很清晰. 這是美國的一個電影, FBI在抓人. 最後他抓到一張很模糊的映像映像放大做成清晰的映像, 當時覺得FBI很厲害, 非常棒. 我們用傳統的技術也試圖把這個映像恢複一下. 當時希望把小圖恢複成這樣, 用傳統演算法做了最大的努力, 最後的結果是這樣, 所以我們很不滿意.
這個應用有什麼用處呢? 實際上是把可以進行映像, 視頻放大, 可以把普通的電視訊號變成4K的高清訊號, 8K的高清訊號, 這是我們最新做出來的結果, 可以看到如果直接放大是很模糊的, 現在用新的結果基本上達到高清的效果, 已經達到實用的階段.
在日本有個工作叫WAIFU2X, 他們用我們的技術做了演示, 就是把太太 (二次元妹子) 放大兩倍, 然後用這個圖, 最後的效果非常清晰.
超解析度這個工作是很重要的, 因為有很多場合有應用. 所以穀歌, 推特也對這個非常重視, 他們在2016年連著發四篇文章做這個工作. 按照以往, 大家可能都是跟著穀歌后面做, 而我們不是, 我們發表了全球第一篇用深度學習超解析度文章, 那是2014年, 早於穀歌兩年, 2015年又發了一篇, 2016年兩篇, 2017發了三篇, 我們不但是做的最早的, 第一個做的, 而且也是目前做的最好的. 所以是穀歌在跟著我們做!
做這一項工作要想做成功, 牽扯的工作是非常多的, 有各種各樣的技術, 涉及到十幾篇幾十篇的文章才能做到現在的效果. 所以現在我們已經可以做到實用, 在街頭上拍的照片, 模糊照片可以真正看到罪犯的樣子.
而且已經給深圳的公安用了, 公安用手機可以拍人的照片, 很模糊的映像可以在庫裡搜索, 即時抓捕罪犯.
經過我們的努力, 所有這些加一起, 從原來這個效果現在可以做到這個效果了.
所以每一項工作後面都有大量的工作需要做的, 都有大量的頂級文章. 我們不是剛剛這幾年人工智慧熱了才開始做的, 而是十五六年的積累, 04年到08年我們統計了一下在兩個頂級的會議上, 我們一個實驗室發了57篇論文, 而MIT全校是51篇, 伯克利大學是33篇, 牛津大學是45篇; 我們十幾年在頂級會議文章數量上一直是在全球領先的. 在過去兩年, 三個頂級會議上我們統計了數據, 微軟最多是發了124篇, CMU是86篇, 我們排第三是76篇, 是亞洲唯一的進入前十名的. 所以我們是有這種強大的人才和經驗的積累, 才做出剛才這些真正落地的產品.
在2011年到2013年深度學習剛剛開始的時候, 這兩個頂級會議上, 29篇文章我們佔了14篇, 全球的一半, 這裡面16項技術, 都是我們第一個真正成功的把深度學習應用到這些技術領域.
所以我們是深度學習的原創技術公司, 是真正做平台的, 和臉書的Torch, 穀歌的TensorFlow一樣, 我們做了自己的原創平台Parrots, 來在這上面開發我們深度學習相關的技術.
7月份的時候, 我很榮幸作為國際期刊IJCV主編, 召集了夏威夷IJCV Night晚宴會議, 計算機視覺領域很多頂級學者都參加了我們的這個晚宴. 我們在馬上10月份, 在威尼斯的ICCV大會上會再開一次這樣的國際頂級學者的·聚會, 歡迎大家過來參加.
最後, 大家看一下這一頁上的這些映像的一個共同的點是什麼? 米開朗基羅, 貝多芬, 梵谷, 喬布斯, 蘭博基尼的設計首席設計師, 這些人有一個共同特點, 其實就是兩個字: 原創. 中國最缺的就是原創, 我們現在做的就是原創, 做原創是非常難的一件事情, 但是不做原創一個國家是永遠也發展不起來的.
我們在做電影分析的時候, 看到這些老的電影, 《上甘嶺》《英雄兒女》《小兵張嘎》, 我們團隊的120個博士很像當年《上甘嶺》上最後一個加強連, 一個博士的加強連. 但是以我們這一個加強連的兵力看起來很強大, 但是對手是穀歌, 微軟, IBM這樣強大的對手, 我們是需要援軍的, 需要炮火支援, 用《英雄兒女》裡面王成的一句話, 就是向我開炮, 我們這代人好好努力, 我相信我們下一代人, 小兵湯嘎們就會比上一代的小兵張嘎的生活過的更好. 謝謝大家!