近期關於AI晶片 (ASIC) 與FPGA的關係, 地位正在業內被討論. 因此, 我們也就這個話題邀請業內投資人, 創業者進行探討.

回顧晶片發展史, 是一部摩爾定律驅動的製程演化史, 也是一部應用定義的架構演化史, 所以談起ASIC是不是會被FPGA取代, 本身是一個門外漢的問題.
在摩爾定律放緩的背景下, 應用場景定義的晶片架構乃至軟硬體系統將更加重要. 正如GPU, DSP, 視頻處理晶片等一波波新應用帶來的專用晶片架構的變革, AI在這一波浪潮當中也會隨著演算法的演化和收斂, 逐漸沉澱出一些更加高效的架構來, 並且這些晶片架構是和場景應用軟體高度融合, 平衡功耗, 性能, 成本的設計.
計算架構主要有三個核心要素組成, 包括計算, 存儲和網路, 因此晶片種類也基本上可以按照三類來劃分, 這樣方便理解.
首先, 我們談一談計算晶片, Intel和ARM的CPU, NVIDIA的GPU, CEVA的DSP都屬於這一類晶片或者IP, 主要任務就是完成邏輯和數學運算, 支撐了IT世界的雲計算, 手機終端應用和訊號處理, 乃至AI等等; FPGA是其中一個小門類, 在整個Intel的營收當中不到5%, 通常FPGA可以做到一些CPU不擅長的加速運算, 比如訊號處理, AI推理等場景, 但是FPGA的缺點也非常明確, FPGA強調的是邏輯的通用性, 支援軟體改寫和配置, 導致計算密度是有瓶頸的, 並且通用邏輯帶來了大量冗餘, 這意味著成本和功耗的大幅度上升. 在移動互聯網和物聯網時代, 用戶數和應用複雜度急劇上升, 計算密度 (單位功耗支撐的計算力) 是核心競爭力, FPGA顯然無法勝任, 雖然FPGA可以在加速場景能夠比CPU提升一個數量級, 但是相對於專用的AI引擎又低了至少一個數量級.
有人會質疑ASIC是不是通用型不夠, 其實這個答案很簡單, 通用型和計算密度是一種折衷, 比如理論上CPU是可以做任何的運算, 但是通用架構帶來了計算密度的損失, 舉個例子, 最好的伺服器CPU大致也只能提供1Tflops的AI推理算力; 再看看GPU, 輕鬆可以做到10Tflops, 但是GPU並不能完成複雜的邏輯運算, 因此它永遠無法取代CPU; FPGA是介於CPU和ASIC中間的一個物種, 有一定的靈活性但是性價比低, 無法滿足主流的需求, 比如說手機行業, 為了節省幾美分的成本在不停的優化設計, 面對如此巨大的行業, 點滴的成本節省都是巨大的利益, 因此FPGA的命運一直是市場早期的過渡產品或者服務於小批量的細分市場.
最近我們注意到一件有趣的事情, Intel收購了一家從事結構化ASIC設計的公司, 可以基於FPGA的設計裁剪掉部分冗餘邏輯加速從FPGA邏輯設計到ASIC的開發過程, 從這一點也可以看出ASIC才是主流市場的終極答案.
北極光投資了四家AI晶片公司:
▪ 分別針對雲計算的登臨,
▪ 自動駕駛的黑芝麻,
▪ 消費電子和安防的億智,
▪ 超低功耗感測器融合的Ours technology,
這些公司分別是針對不同應用場景優化過AI引擎, 未來的晶片公司不能只是生產硬體的公司, 必須深刻理解用戶的需求, 界定靈活性的邊界, 才能定義出最好的產品. 比如說, 登臨面向雲計算市場, 需要支援更多的AI網路模型, 因此它的架構設計更兼顧通用性, 更接近GPGPU的架構; 而黑芝麻和億智深刻理解應用場景的性能需求, 只需要支援用戶需要的少數幾種演算法, 而更追求功耗和性能的平衡. 客戶真正關心的不是通用性, 否則用CPU就好了, 而是滿足場景需求的計算密度下的成本.

還有人質疑新興公司搶不到產能, ASIC的目的就是用最主流和相對便宜的製程去完成FPGA用最先進位程才能做到的事情, 不存在產能問題, 比如說億智只需要用40nm和28nm的製程就可以提供1TOPS以上的算力, 成本只是FPGA的1/10甚至更低, 最先進的製程適合的是通用晶片設計, 但是在摩爾定律放緩的背景下, 會成為一個巨大的負擔. 這裡也想談下深鑒被收購的個人觀點, FPGA開發者非常少, 使用困難, 因此自動化工具對FPGA是有價值的, 深鑒的軟體工具可以加速FPGA的AI開發進度, 但是Xilinx是否還會繼續投入AI專用晶片的研發拭目以待. 作為行業老大的Intel在自動駕駛, 消費, 安防和雲計算都有專用AI晶片的布局, 包括BAT都在各自研發AI晶片, 這個方向還是具有相當的共識.
我們概括一下觀點, 場景定義AI專用晶片和異構計算是下一個計算架構變革周期的主旋律.
其實, 中國投資AI晶片公司不是太多而是太少了, 真正具備產業經驗的成熟團隊才是投資界應該追逐和支援的標的, 也是國家未來的戰略資源.