從中科院到思朗科技: 中國超高性能晶片的誕生之路

5G到來的進程正在加速.

目前, 5G正處於標準確定的關鍵階段, 今年6月, 國際標準組織3GPP即將完成5G第一版本國際標準. 同時政策利好也不間斷, 4月24日, 發改委, 財政部發布通知, 將降低5G公眾移動通信系統頻率佔用費標準……

5G技術不僅能支援包括汽車在內的各類機器人(20.11 +3.93%,診股)順暢地互聯互通, 也將是智能手機, 智能家居, 人工智慧, 大數據及雲計算等多個領域實現 '質' 的升級的基礎技術.

面對這股迎面而來的5G浪潮, 中國的晶片行業準備好了嗎? 雖然道阻且長, 但以華為海思為代表的中國智造依然讓人期待. 目前在基帶領域, 華為海思是唯一可與高通相比的中國公司, 這是華為30多年來各種要素積累的結果, 也非一蹴而就.

而在創業公司層面, 也有一家公司顯得尤為特別: 脫胎於中科院自動化研究所, 原國家專用整合電路設計工程技術研究中心 (1992年組建) 的思朗科技, 由該中心原主任, 原中科院自動化所所長王東琳博士帶隊, 已經研製出高性能領域微處理器MaPU, MaPU首次實現了代數演算法級全局優化且高度可編程, 已於2015年流片成功.

MaPU不僅完全可以實現國際巨頭的可編程處理器的性能, 而且功耗比可媲美ASIC. 基於MaPU, 思朗科技進一步研製出了三大領域處理器: 面向5G通信領域的UCP, 面向多媒體領域的UMP, 以及面向超算領域的HPP. 同時, 還配備了AI領域處理器: 深度神經網路引擎NNE.

近日, 在中科院自動化所, 投資界採訪到了思朗科技創始人兼首席科學家王東琳. 王東琳在國際上最早提出代數演算法級 '全局優化計算' 架構, 基於此架構設計的MaPU在計算能力和性能功耗比方面具有國際領先水平.

思朗科技創始人兼首席科學家王東琳

高性能領域微處理器MaPU

王東琳介紹, MaPU最大的特點是計算能力強, 功耗低.

當前, 市面常用的處理器有幾類, 一類是可編程的處理器, 比如英特爾, TI的處理器, 因為可編程, 適應性非常廣. 但是當執行一個數學演算法的時候, 它的運算器的利用率一般在15%左右, 高的能到20%. TI的處理器, 運算器利用率最高也僅可以到40-50%. 就是說這些處理器空有那麼高的頻率, 空有這麼多資源, 但它的執行效率不高.

還有一種是不用編程的ASIC方案, 它用硬體把演算法流程和對演算法的控制都已經寫好了. 這種實際上就是演算法的加速器, 因此執行效率會非常高, 幾乎可以接近100%.

很明顯, 可編程處理器和ASIC之間在功耗上有著巨大的差別. ASIC的問題是, 效率高, 但是演算法不可變, 演算法只要變化一點, 這個晶片就不能用了.

而MaPU既可以做到接近ASIC的效率 (計算資源利用率可以達到90%以上) , 同時也高度可編程, 兼具兩者的優勢.

以超算晶片為例, MaPU的性能功耗比全球第一

在王東琳看來, 當前主流可編程處理器的核心問題在於它是傳統體繫結構, 指令層次低並試圖在運行時刻通過亂序多發射等技術儘可能實現局部並行執行. 這造成了晶片中計算資源利用率不高, 數據IO量大, 動態功耗大, 整體性能功耗比不高, 已經不適應當今社會對微處理器巨大計算能力以及極低功耗的雙重渴求. 如果能從應用演算法整體來考量時間及空間等不同維度並行特性, 並利用這些並行特性來進行整體性優化整理, 其內核中的運算器的使用率將獲得大幅提高. 於是王東琳和他的團隊經過精密的測算和試驗, 提出代數演算法級全局優化的解決方案.

'一條指令, 就可以實現一個代數演算法, 所以叫做代數指令. 傳統架構的指令集都是算術運算級的指令. ' 王東琳介紹說, MaPU將其升級為代數級演算法指令, 'MaPU通過代數指令軟流水線來零延時動態重構 (與演算法相適應的) 硬體架構, 達到與ASIC基本相同的演算法架構, 實現整個演算法的全局優化執行過程. '

簡而言之, MaPU既能支援應用演算法級全局優化, 又能通過高度可重構的計算架構與存儲體系在軟體層面實現的這點, 可靈活適應領域 (5G通信, 多媒體, 超算或人工智慧) 內各種演算法, 可以說MaPU集合了ASIC, FPGA, CPU的優勢, 是幾乎可以與ASIC的性能功耗比相媲美的 '軟ASIC. '

'MaPU-代數運算微處理器, 在並行代數運算, 並行存儲體系指令系統和硬體架構方面產生重大原始性創新, 將微處理器硬體支撐從標量/超標量運算提升至代數運算層次, 數量級地提升計算密集型領域微處理器能效比. ' 王東琳如此總結.

那麼, 具體的性能以及功耗比指標如何, 王東琳給出了一組直觀的對比數據:

以極光H1.0超算晶片為例, 晶片內部整合32個HPP處理核, 雙精度浮點處理能力將達到4,659GFLOPS@64, 經評估功耗僅為40W左右, 性能功耗比達到 116GFLOPs@64/W, 為全球第一.

因此, MaPU應用量產之後, 它獨創的架構優勢將有望使我國在微處理器架構上實現重大突破, 在同等能耗比下釋放巨大計算能力, 引領中國電子行業的自主創新發展.

對此, 中科院院長白春禮在今年3月曾在媒體表示: '在高科技產品研發方面, 中科院即將發布一款具有完全自主智慧財產權的微處理器——MaPU代數處理器, 達到國際領先水平. 相信MaPU系列處理器問世以後, 將在世界計算機, 通信等領域以及廣大消費電子市場產品中大放異彩. '

'MaPU的三個孩子'

在MaPU的基礎上, 思朗科技進一步研製出了三款性能強大的領域處理器: 5G通信領域處理器UCP, 多媒體領域處理器UMP, 以及超算領域處理器HPP.

UCP: 全球首次徹底實現軟體定義無線電.

UCP是MaPU針對移動通信增強的通用通信處理器是5G宏基站基站處理器的晶片內核, UCP內核每秒可以完成5.8G定點複數FFT, 每秒可以完成55GBPS的LDPC編碼以及2.5GBPS解碼. 根據初步測算, 一顆含有二十個UCP內核的基帶處理器就可以滿足64天線5G宏基站全部基帶處理需求.

'如果使用FPGS搭建5G系統, 則需要多片互聯才能實現系統解決方案, 而基於FPGA的電路系統主頻一般<400-600MHz, 片间互联总线带宽受限, 运算能力受限, 这将成为实现5G系统的瓶颈. ' 王东琳说.

目前UCP內核是國際領先的在可接受代價下實現全軟體定義5G無線傳輸基帶處理系統的處理器內核, 王東琳將UCP定義為 '移動通信領域徹底實現基帶處理的軟體定義無線電. '

除了基站設備製造商以外, UCP內核還可以提供給5G終端製造商. 由於5G標準的原因, 所有終端都要重新嵌入適應5G演算法的基帶內核 (原有的基帶內核或者DSP內核無法應對5G下行接收和上行發送時的大運算量) , 這也是UCP內核的機會. 多合一無線通信設備, 各領域寬頻自組網終端也都是UCP通過全軟體定義無線電技術施展能力的空間.

UMP: 依靠它智能手機, 智能電視都可線上升級視聽體驗, 並可為高清攝影, 攝像等應用提供超級引擎.

UMP是MaPU的第二個 '孩子' , 面向智能手機, 智能電視的多媒體微處理器內核.

UMP在MaPU基本架構基礎上發明了更高效的並行處理架構, 使得各類視頻處理運算的性能功耗比與ASIC相媲美, 某些方面甚至勝出, 同時還保持了高度可編程特性.

'這種特點可以使家用電視隨著電視廠家視音頻處理演算法演化線上改善視音頻體驗效果, 這是ASIC電視晶片無法比擬的. ' 王東琳表示, '同時也可以通過演算法和軟體改進快速推出新產品. '

4個UMP內核+1個ARM內核構成的超高清電視引擎晶片 (功耗不超過8 瓦) 可以滿足4K超高清電視的所有視音頻處理以及基於安卓系統電視管理的全部需求, 視聽效果可以媲美索尼與三星最高端電視. 14個UMP內核+1個ARM內核構成的超級電視引擎晶片可以滿足8K超高清電視所有處理與計算需求.

加上思朗研發的AI領域深度神經網路引擎NNE內核後, 不論是智能電視還是智能手機, 都可以在高清視頻, 機器視覺, 人機交互方面實現性能大躍升, 讓國產消費電子產品在較低成本下大幅提高用戶使用體驗. 第一款超級電視引擎晶片將於2018年底完成流片, 並可以開始面向智能電視製造商進行應用推廣.

HPP內核超算處理器相較於Intel最新型處理器性能功耗比提高近一個數量級.

目前, MaPU的第三個 '孩子' HPP內核已經是一項比較成熟的產品.

'MaPU通過架構創新獲得的核心能力還是高密集度計算. ' 因此, 王東琳一直希望通過MaPU針對通用計算領域增強型內核HPP (高性能處理) 構成超算型微處理器, 滿足高端伺服器領域的需求.

從而開發了極光H1.0——超級計算類MaPU微處理器 (預計年底完成流片及封測) , 經設計評估極光H1.0的性能功耗比遠超國際上其它超算類微處理器, 可以作為超算系統及超級伺服器的核心處理器.

王東琳給出了一組數據:

基於HPP內核的超算處理器極光H1.0與Intel最新型Xeon Phi性能相當, 但可16/32/64/128位靈活重構, 性能功耗比提高近一個數量級: 在提供同等64位浮點運算能力時極光H1.0 (2x16個HPP內核) 功耗是40W, Intel Xeon Phi處理器是300W.

NNE: 頂級深度神經網處理

思朗的另一款產品: 加速神經網路引擎NNE 繼承並發展了MaPU的 '同心圓存儲體系優化模型' , 並針對深度神經網路進行了優化, 優點是針對主流神經網路, 整網吞吐率高, 訪存需求及功耗低, 與英偉達深度神經網內核性能相當但效率更高. 思朗的NNE在存儲體系和配置深度神經網路時吸收MaPU全局優化思想, 性能功耗比上優勢明顯.

'NNE可以支援深度學習訓練, 特別支援智能推理, 在視頻映像識別方面做了專門優化, 在目標檢測, 識別, 視頻映像結構化方面具有較突出的優勢. ' . 王東琳介紹.

一個可期待的應用場景就是智能駕駛, 在這個場景裡, UMP可以高速處理多路攝像頭映像並提取待識別目標; NNE負責理解判斷處理路況, 車況並提供決策及駕駛控制所需要的關鍵資訊; 而UCP負責提供極短時延的車聯網通信能力.

甘坐冷板凳, 堅持研發了近10年的科研團隊

思朗及其前身團隊, 從2009年就開始部署新指令集體繫結構的研究, 到研發出完全自主創新的微處理器架構MaPU已經經曆了9年艱苦歲月. 研發團隊系原國家專用整合電路設計工程技術研究中心的70多位核心科研人員.

2017年二季度開始, 團隊開始公司化運作.

王東琳是個有技術信仰的人, 團隊夥伴也是這樣. 整合電路領域向來人才不足, 人員短缺. 因為做晶片等硬體太苦, 收益又不高, 不少優秀學生畢業後更願意選擇金融和互聯網業. 做晶片就需要有工匠精神, 需要頂尖的技術人才願意沉下心做研發, 並能長期承受住研發成功與否的壓力. 思朗科技的研發團隊做到了.

基於MaPU的幾款增強領域處理器在各自領域各有優勢, 實際上也可以組合使用, 從而落地到各種不同的實際場景中: 5G通信, 智能手機, 智能家居, 超算, 智能駕駛, 智慧城市, 機器人和無人機等等.

'摩爾定律不可能永遠適用, 晶片性能升級遇到了世界性瓶頸, 這剛好是我們追趕的最佳機遇. ' 王東琳說, '晶片是一個需要耐心的行業, 我們已經做了9年, 基礎已經打好, 接下來的重點是到實際應用中去調整, 去優化. '

2016 GoodChinaBrand | ICP: 12011751 | China Exports