绘图处理器大厂NVDIA第1季数据中心业务成长较过去几年明显放缓. NVIDIA能否维持在人工智能(AI)领域的地位, Google TensorFlow Processing Unit (TPU)等定制芯片的出现会否威胁到NVIDIA在深度学习培训中的主导地位. 而英特尔(Intel), 超微(AMD)和该领域的所有新创公司能否追上NVIDIA, 值得深入探讨. 据富比士(Forbes)报导, 市场研调机构Moor Insights & Strateg分析师Karl Freund日前发表研究报告指出, NVIDIA在AI方面的惊人成长引发很多关注, 并带来众多潜在对手, 其中许多公司声称其研发中的芯片比NVIDIA的快10倍, 而且功耗更低. 而除了超微的GPU之外, 所有公司都认为专为处理神经网络设计的芯片是条可行路线. 英特尔 英特尔(Intel)于2016年收购Nervana来建构其加速器产品组合. 原始Nervana Engine应该在2017年发布, 迄今仍无消息. 在NVIDIA发表效能比Pascal高6倍的Volta TensorCores震惊各界后, Nervana可能决定调整其最初设计. Freund认为, 首批量产的Nervana芯片可能会在2018年后期问世. 上面的讨论是关于训练深度神经网络(DNN), 这是NVIDIA在AI中取得很大成功的地方. 然而, 英特尔表示, 通过将良好的软件设计与Xeon数据中心处理器配对, 可在推论工作中实现出色的性能. 该公司声称享有逾80%的推论处理市场市占. Google TPU和其他内部ASIC Google有两种可用于AI的ASIC: 一种用于推论, 另一种用于培训. Google将TPU做为加速器推向市场. 但实际上, 它由4个相同的ASIC构成, 每个提供约45TOPS. 相较之下, NVIDIA Volta每个芯片提供高达125TOPS. 随着时间推移, Google可能会将其大部分内部GPU工作转移到TPU. 超微 尽管超微在准备其软件堆叠好与NVIDIA争夺机器学习工作负载方面做得很好, 但其当前Vega芯片在峰值效能方面比NVIDIA的Volta落后了一代. 新创公司 全球目前有10几家新创公司计划竞争机器学习工作量, 其中有些已准备好推出芯片. 大陆的寒武纪看起来资金充足, 并获得大陆政府支持. 寒武纪专注于处理神经网络, 而不是建构神经网络. 硅谷公司Wave Computing已推出能建构培训模型的芯片. Wave采用名为DataFlow Architecture的新颖设计, 据称能消除传统加速器的瓶颈. Wave的数据流处理器不必使用CPU就能直接训练和处理神经网络. 与Google TPU不同, Wave支持微软CNTK, 亚马逊(Amazon) MXNet和Tensorflow软件进行深度学习. 其他知名公司如Cerebras, GraphCore和Groq仍处于隐形模式, 但已筹集大量资金来打造定制AI加速器, 但应该要到2019年才会推出产品. Freund认为, NVIDIA的最大威胁可能是Google TPU. Google可能会继续购买和使用许多GPU来处理TPU不太适合的工作负载, 例如用于语言处理的递归神经网络. 而Wave对不想使用公共云进行AI开发和部署, 并且不希望自行设置自GPU基础设施的企业来说是不错的选择. 最后, 英特尔若能借Nervana进入市场, 且愿投资全力支持它, 那么Nervana可能在2019年构成威胁. 但Nervana需要至少3年的时间和坚实的路线图来发展1个可行的生态系统. 需要考虑的1个因素是, 随着NVIDIA 7纳米制造技术的发展, NVIDIA将能为AI功能添加重要的芯片面积. 因此, 专注于AI的芯片区域百分比可能会增加, 以至于这部分实际上成为也能显示图形的ASIC. Freund不认为NVIDIA是1家GPU公司, 而是1家对成长抱有无限渴望的平台公司. 目前没有其他公司拥有NVIDIA在AI硬件和软件专业知识的上拥有NVIDIA的深度和广度. NVIDIA若预见来自超微, 英特尔或ASIC的威胁, 大可设计出更好的AI芯片. NVIDIA已通过深度学习加速器(DLA)做到这一点. GPU若受到威胁, NVIDIA能够也将转向下一步. 与此同时, 它在AI培训芯片方面有明显的成长和市场领先地位. 在推论处理方面, NVIDIA专注于数据中心工作负载及用于自驾车等应用的视觉引导系统. 汽车市场在未来几年虽然规模仍然有限, 但Freund毫不怀疑它最终会带来显著成长.