三大派系決戰AI晶片之巔: 英特爾押寶神經網路處理器

日前, 在有著103年歷史的舊金山藝術宮中, 英特爾的新晉科技大會——人工智慧開發者大會(簡稱 'AIDC' )如期而至. 這一次, 英特爾聚焦於拓寬人工智慧生態.

在羅馬式建築和科技感的AI場景間之間, 英特爾的AI掌舵者Naveen Rao侃侃而談英特爾的人工智慧軟硬體組合, 而最重磅的資訊莫過於Nervana神經網路晶片的發布預告, 按照規劃, 英特爾最新的AI晶片Nervana NNP L-1000, 將在2019年正式推向市場, 這也是英特爾第一個商用神經網路處理器產品.

兩年前, Naveen Rao還是深度學習初創公司Nervana Systems的首席執行官兼聯合創始人. 在公司被英特爾收購後, Nervana成為了英特爾人工智慧的核心戰艦, Nervana NNP系列也應運而生, Naveen Rao則被任命為人工智慧產品事業部的總負責人.

英特爾人工智慧產品事業部副總裁, Nervana團隊成員Carey Kloss在接受21世紀經濟報道記者專訪時談道: '我們創業初期就開始研發Lake Crest(Nervana NNP系列初代晶片代號). 當時我們整個團隊大概45人, 正在構建一個最大的Die(矽晶片), 我們開發了Neon(深度學習軟體), 還構建了雲棧, 這些都是小團隊所完成的. 但是這也是挑戰所在, 小團隊成長會有陣痛, 我們花了很長時間才把第一批產品拿出來, Nervana在2014年成立, 直到去年晶片才真正問世. '

不過, 加入英特爾後, Nervana可以使用英特爾的各類資源, '當然, 調用資源並不是一件容易的事情, 但是英特爾在產品的市場化方面擁有豐富的經驗. 同時, 英特爾有迄今為止我見過的最佳的後矽培養(post-silicon bring-up)和架構分析. ' Carey Kloss告訴21世紀經濟報道記者, '出品晶片方面, 我們有數百個系統同時運行, Nervana的員工和6個月前剛加入的成員也都為了新品夜以繼日地協同工作. ' 在他看來, Nervana現在處於合理的節奏中, 已經具備了明年取得成功的所有要素.

除了Nervana, 英特爾收購的人工智慧旗艦企業還包括專註視覺處理的Movidius, FPGA(現場可編程門陣列)巨頭Altera, 智能駕駛相關的Mobileye等. 事實上, 從2011年開始, 英特爾就開始不斷地投資人工智慧相關的公司, 其中也包括了中國的寒武紀, 地平線. 與此同時, 英特爾的競爭對手也在日益壯大. 英偉達的GPU在人工智慧領域高歌猛進;穀歌前不久發布了第三代AI晶片TPU, 該晶片針對穀歌的深度學習架構TensorFlow進行了優化, 並且穀歌對開發者提供了TPU等底層服務;去年, 百度聯合ARM, 紫光展銳和漢楓電子發布DuerOS智慧晶片, 主要提供語音交互解決方案;Facebook和阿里巴巴也紛紛進軍晶片領域, 其中, 阿里巴巴達摩院正在研發名為Ali-NPU的神經網路晶片, 主要用於映像, 視頻識別以及雲計算等場景.

在這場人工智慧晶片的 '遭遇戰' 中, 英特爾又將如何應對?

三大派系爭霸 從整體來看, 目前全球人工智慧的格局尚未明朗, 屬於各自做技術探索的局部戰, 尚未進入群雄逐鹿的總體戰. 人工智慧是一個籠統的概念, 具體的應用場景差異頗大, 各家公司側重點有所不同, 若根據技術和業務流派進行分類, 可以將全球公司分為三個派系. 其一是系統應用派, 最典型的代表是穀歌和Facebook. 他們不僅開發人工智慧的系統級框架, 比如穀歌出名的人工智慧框架Tensorflow, Facebook的Pytorch, 而且還大規模地投入應用. 例如, 穀歌斥重金研發自動駕駛, 推出翻譯等2C業務. 而Facebook也將人工智慧技術廣泛應用在社交網路中的映像處理, 自然語言處理等諸多領域.

第二類是晶片派, 目前主要是提供算力支援, 最大的玩家就是英特爾和英偉達. 英偉達的GPU抓住了計算設備需求的關鍵時機, 在圖形渲染, 人工智慧和區塊鏈領域的計算表現十分突出, 在這些業務方面也給英特爾帶來壓力. 同時英偉達似乎和英特爾的 'Intel Inside' 不同, 它更希望成為真正的算力平台, 並且成功推出了自己的CUDA平台.

就在5月30日, 英偉達發布了全球首個融合人工智慧和高性能計算的計算平台——HGX-2, 這也是目前最大的GPU——DGX-2背後的計算平台. 作為傳統算力領域的老大英特爾自然不甘示弱, 50年的企業頗有老驥伏櫪的意味, 近年來在人工智慧領域頻頻發起重磅併購: 2015年167億美元收購 '現場可編程門陣列巨頭' (Field Programmable Gate Array, FPGA)Altera, 為未來算力的發展趨勢奠定基礎, FPGA在雲計算, 物聯網, 邊緣計算等方面有很大的潛力;2016年英特爾收購Nervana, 計劃用這家公司在深度學習方面的能力來對抗GPU;同年還收購了視覺處理晶片初創公司 Movidius;2017年英特爾以153億美元收購以色列協助駕駛公司Mobileye, 旨在進軍自動駕駛領域.

在系統應用派和晶片派之外, 第三類是技術應用派, 剩下的大部分公司都屬於這一類型. 雖然不同的公司都聲稱自己在深度學習, 人工智慧領域有著深厚甚至獨特的技術積累, 但實際上大多是基於系統應用派和晶片派的技術平台. 只不過技術應用派更多的面向C端用戶, 包括自動駕駛, 映像識別, 企業級應用等. 客觀上說, 技術應用派屬於 '君子善假於物也' .

從目前的競爭格局上來看, 系統應用派已經逐漸佔據了整體優勢, 在人工智慧領域具備了最核心的競爭力. 在傳統的電腦和手機時代, 系統和晶片更多是合作關係, 晶片甚至更加佔據主導地位. 具體來看, 比如在電腦市場上, 英特爾在算力領域完全制霸, 橫跨PC和蘋果的MAC機. 而系統方面, Windows和iOS各有千秋, 無法代替對方, 但他們共同的英特爾卻無法代替. 到了手機時代, 雖然算力的主角從英特爾變為了高通, 但是晶片依然處於核心的地位, 其重要性和作業系統平分秋色.

而最近1-2年, 形勢變化很快, 蘋果放出要自己研發和生產MAC晶片的口風, 英特爾股價一度聞風下跌. 在人工智慧領域, 這樣的趨勢更加明顯, 由於計算場景的需求差異化極大, 穀歌根據自己的需要研發成熟的晶片變得必要, 技術上也更可行. 英特爾如果要為不同的場景定製晶片, 意味著英特爾將全面轉入2B領域, 和之前的2B2C模式相比, 純2B的業務顯然會更像乙方, 業務線的複雜度會急劇增長. 而曆史上來看, 一家公司從2C轉向2B總體來看往往都是因為失去了在行業中的核心統治地位而不得不退而求次.

押寶Nervana NNP 那麼, 在激烈競爭中, 英特爾又如何進一步加碼晶片事業?

Naveen Rao加入了英特爾後, 成為英特爾副總裁, AI事業部(AIPG)負責人, 主導推出英特爾神經網路處理器(Nervana NNP)系列晶片. 這次在AIDC大會上提出為開發者提供軟體工具, 硬體, 生態. 在業內看來, 以英特爾的技術實力, 軟體工具和硬體並不成問題, 但是生態卻有待商榷. 在PC時代, 生態的核心是晶片, 因此圍繞晶片構建生態就可以令英特爾固若金湯, 但是在人工智慧時代, 人工智慧系統才是生態的核心, 提供算力的晶片是生態的一部分, CPU可以提供算力, GPU也可以提供, 英特爾可以生產, 英偉達也可以生產, 甚至穀歌, 蘋果自己也可以生產. 目前在數據科學和深度學習計算領域, 英特爾的晶片布局主要有Xeon(至強)晶片系列, Movidius的視覺晶片VPU, Nervana NNP系列, 以及FPGA(現場可編程門陣列). 這幾條產品線分別對應幾個不同的細分應用場景.

Nervana NNP系列則是神經網路處理器, 在深度學習的訓練和推斷階段中, Nervana NNP主要針對訓練階段的計算, 按照英特爾的計劃, 到2020年要將深度學習訓練(Deep Learning, 簡稱 'DL' )的效果提高100倍. 這款神經網路處理器由英特爾和Facebook一起合作設計, 可以預測該晶片很大程度上應該會對Facebook的機器學習框架Pytorch有很好的支援, 畢竟Facebook的Pytorch的野心肯定是要和穀歌的Tensorflow一決高下. 不過最新款晶片2019年才會正式推出商用, 屆時深度學習的格局變化如何無法預料.

Naveen Rao在其博客中寫道: '我們正在開發第一個商用神經網路處理器產品英特爾Nervana NNP-L1000(代號Spring Crest), 計劃在2019年發布. 與第一代Lake Crest產品相比, 我們預計英特爾Nervana NNP-L1000將實現3-4倍的訓練性能. 英特爾Nervana NNP-L1000還將支援bfloat16, 這是業內廣泛採用的針對神經網路的一種數值型數據格式. 未來, 英特爾將在人工智慧產品線上擴大對bfloat16的支援, 包括英特爾至強處理器和英特爾FPGA. ' 事實上, Spring Crest在2018年底推出的傳言早已有之, 但是目前看來, 官方公布的2019年這一時間點略有延遲. 對此, Carey Kloss向記者解釋道: '進入更現代化的製程節點, 我們整合了更多的Die(矽晶片), 可以獲得更快的處理速度. 但是需要一定的時間去製造矽片, 也需要時間把矽片變成新的神經網路處理器, 這是延遲的原因. '

對於兩代晶片的區別, 他分析稱: 'Lake Crest作為第一代處理器, 在GEMM(矩陣運算)和卷積神經上都實現了非常好的計算利用率. 這不僅僅是指96%吞吐量的利用率, 而是在沒有充分定製化的情況下, 我們也取得了大多數情況下實現GEMM高於80%的計算利用率. 當我們開發下一代晶片時, 如果我們能夠保持高計算利用率, 新的產品在性能上有3到4倍的性能提升. '

談及競爭, Carey Kloss表示: '我不知道我們競爭對手的路線圖是什麼, 但我們的反應速度相對較快, 所以我認為我們不會在神經網路處理上處於劣勢. 比如bfloat16已經有一段時間了, 它最近變得更受歡迎, 不少客戶提出支援bfloat16的要求, 我們也逐步轉向支援bfloat16. ' 而對比穀歌的TPU來看, 他認為TPU二代類似於Lake Crest, TPU三代類似於Spring Crest.

四面出擊 除了備受關注的Nervana NNP, 英特爾的Xeon晶片主要面向伺服器和大型計算設備, 比如我國超級計算機天河一號和二號就採用了Intel Xeon 六核處理器.

在視覺晶片方面, 英特爾的業務量增長迅速. Movidius VPU晶片早就面向在汽車, 無人機等新興的硬體市場, 比如大疆無人機, 特斯拉, 以及Google Clips攝像頭中都採用了Movidius的視覺晶片.

Movidius的市場負責人Gary Brown告訴21世紀經濟報道記者: '在Movidius, 我們研發的晶片被稱作視覺處理單元VPU. VPU是一種兼具計算機視覺和智能攝像頭處理器的晶片. 所以我們的晶片所做的處理大概有三類: ISP處理, 也就是映像訊號處理, 基於攝像頭捕捉技術的處理, 以及計算機視覺和深度學習. '

他舉例道, 具體的使用場景包括VR產品和機器人技術, 智能家居, 工業攝像頭, AI攝像頭, 還有監控和安保. 其中, '監控和安保是一個巨大的市場, 尤其在中國, 監控和安保攝像頭的市場特別大, 有一些大公司在研發監控攝像頭, 例如海康威視和大華. '

Gary Brown還提到, 智能家居領域目前正在迅速發展, 雖然市場很小, 但是發展神速. '有很多公司在研發智能裝置, 如智能家庭安防, 個人家庭助手, 智能門鈴, 以及公寓和家庭的訪問控制. 但是在家居領域, 要做到低成本, 低能耗, 電池壽命長, 以及非常精準是非常有挑戰性的. 因為比如室外的樹蔭在移動, 就有可能觸發了防盜警報, 因此非常低的誤報率是非常重要的, 要有良好的準確性. '

而公司的挑戰之一就是如何繼續創造高性能的晶片, '我們有一些策略, 比如, 用一個前端演算法降低功耗, 這樣我們就能關閉大部分晶片, 只運作小部分最佳化的面部檢測功能. 當一張臉出現時, 其他晶片將被啟動. 這樣就能一直保持面部監控系統開啟. 我們還有很多演算節能技術, 使家用智能攝像頭續航時間達到大致6個月. ' Gary Brown解釋道.

此外, FPGA這條線則由Altera執掌局面. 隨著5G浪潮的到來, IoT物聯網的數據分析及計算需求會暴增, 物聯網的接入節點至少是數百億級的規模, 比手機規模要高出1-2個數量級. 物聯網的典型需求是需要靈活使用演算法的變化, 這是FPGA的強項, FPGA可以通過自身結構的改變來適應定製化計算場景的需求, 這也使得英特爾在未來為更多不同類型的設備提供高效提供晶片變成可能. 從167億美元的收購金額就可以看出, 英特爾買的顯然不只是眼前的價值.

速攻企業級場景 英特爾近期的一項調查顯示, 在美國企業客戶中, 50%以上都正在轉向採用基於英特爾Xeon處理器的現有的雲解決方案來滿足其對人工智慧的初步需求. 而多位英特爾高管在接受採訪時都向記者表示, 沒有一種解決方案適用於所有的人工智慧場景, 英特爾會根據客戶需求對技術和業務進行搭配. 比如, 英特爾會將Xeon和FPGA, 或者Xeon和Movidius配置在一起, 從而實現更高性能的人工智慧功能.

對於英特爾而言, 這些強化的人工智慧功能將被廣泛地應用於企業級場景. Naveen Rao就表示: '在加速向人工智慧驅動的未來計算過渡之時, 我們需要提供全面的企業級解決方案. 這意味著我們的解決方案要提供最廣泛的計算能力, 並且能夠支援從毫瓦級到千瓦級的多種架構. '

Carey Kloss進一步向21世紀經濟報道記者解釋人工智慧晶片的應用場景: 'Spring Crest可以說是最高等級的Nervana神經元處理器架構. 因此它的客戶就包括超大規模計算中心, 已經擁有相當強大的數據科學工作的大型企業, 政府等等. 如果你需求的是低延且小模型, Xeon就能幫助到你, 它可以把數據從雲到端打通. '

具體來看, 英特爾也在醫療, 無人駕駛, 新零售, 物聯網等場景上做了探索. 比如在醫療方面, 據介紹, 英特爾正在與諾華(Novartis)合作, 使用深度神經網路來加速高內涵篩選——這是早期藥品研發的關鍵元素. 雙方的合作把訓練圖片分析模型的時間從11個小時縮短到了31分鐘——效率提高了20多倍.

在無人商店方面, 英特爾為京東無人便利店提供 '計算大腦' , 目前已在多個智能門店(中石化易捷便利店, 京東之家)以及智能售賣機項目中部署使用. 在演算法上, 京東方面表示, 無人商店用到的機器學習演算法主要集中在知人, 知貨, 知場3個方向, 由於涉及線上線下數據打通, 將視頻等非結構化數據轉化為結構數據等, 需要用到現在比較流行的機器視覺領域CNN(卷積神經網路)演算法, 智慧供應鏈方面用到的傳統機器學習演算法, 如SVM, 統計學的線形回歸, 邏輯回歸等. 在網路條件比較好的情況下, 多數視頻數據可以使用較大模型在雲端完成. 在網路不佳的情況下, 通過端計算比如移動端, 邊緣計算使用小網路完成. 而使用的硬體包括Intel的邊緣伺服器等.

儘管英特爾外遇強敵, 轉型, 擴張的步伐十分堅定. 僅從研發數值來看, 根據IC Insights的統計數據, 2017年排名前10位的半導體廠商研發總支出為359億美元, 英特爾位列第一. 報告顯示, 2017年英特爾的研發支出為131億美元, 占集團總支出的36%, 約為英特爾2017年銷售額的五分之一. 隨著各家的巨額投入, AI晶片的戰役還將愈演愈烈.

2016 GoodChinaBrand | ICP: 12011751 | China Exports