寒武纪推出首款云端AI芯片 | 能否对标英伟达?

第一款商用终端智能处理器IP产品——Cambricon-1A, 该产品作为寒武纪的第一代终端智能处理器IP产品已经被应用于包括华为Mate10, P20, 荣耀10等千万级智能终端中. 除了1A, 寒武纪已推出的终端智能处理器IP还有1H, 而在今天的发布会上, 寒武纪科技创始人兼CEO陈天石首先发布了第三代终端IP产品 Cambricon 1M.

据介绍, 1M 采用 TSMC 7nm 工艺生产, 8 位运算效能比达 5Tops/watt (每瓦 5 万亿次运算) , 提供三种尺寸的处理器内核 (2Tops/4Tops/8Tops) 以满足不同场景下不同量级智能处理的需求, 并可通过多核互联进一步提高处理效能.

另外, 1M不仅延续了前两代IP产品1H/1A的完备性, 单个处理器核即可支持 CNN, RNN, SOM 等多种深度学习模型, 1M还支持 SVM, k-NN, k-Means, 决策树等经典机器学习算法.

还有值得一提的是, 1M性能超越已被广泛使用1A的十倍, 性能的提升使其支持终端设备进行本地训练, 可为视觉, 语音, 自然语言处理等任务提供高效计算平台, 将应用于智能手机, 智能音箱, 摄像头, 自动驾驶等领域. 陈天石表示: '1M是全球第一款支持本地机器学习训练的智能处理器产品, 这意味着使用 1M 的设备可以根据用户行为对应用进行个性化定制. '

至于产品的具体落地, 陈天石表示搭载1H的产品的终端今年会发布, 更多的信息目前暂不方便透露.

不过寒武纪最早的投资方科大讯飞在发布会上介绍了其余寒武纪深度合作的项目. 据介绍, 一小时的语音数据在一个传统处理器上进行智能应用处理, 需要一万小时才能完成, 因此科大讯飞一直在跟踪人工智能专用芯片的前沿进展.

2014年科大讯飞就开始与寒武纪的早期研究团队开始沟通相关语音算法在处理器上的实现, 并在2016年的天使轮注资寒武纪, 2017年开始在寒武纪芯片上进行应用测试.

发布会上科大讯飞披露的测试结果显示, 寒武纪处理器在语音智能处理的能耗效率领先竞争对手云端GPU方案5倍以上, 语音本地识别准确率相对于传统处理器也有9.8%的提升.

寒武纪首款云端智能芯片MLU100

首款云端智能芯片MLU 100发布, 能否对标英伟达?

相比1M的推出, 陈天石与其导师陈国良共同发布的寒武纪首款云端智能芯片Cambricon MLU100才是本次发布会的焦点. 陈天石表示, 三年前我们就开始了两颗芯片的研发, 我们时刻准备着将寒武纪的产品放入云端.

雷锋网了解, MLU100采用寒武纪最新的MLUv01架构和TSMC 16nm工艺, 可工作在平衡模式 (1GHz主频) 和高性能模式 (1.3GHz主频) , 平衡模式下等效理论峰值速度达每秒128万亿次定点运算, 高性能模式下等效理论峰值速度达每秒166.4万亿次定点运算, 但典型板级功耗为80瓦, 峰值功耗不超过110瓦.

陈天石还表示, 与寒武纪系列终端处理器一样, MLU100云端芯片也延续了寒武纪产品通用性的特点, 支持各类深度学习和经典机器学习算法, 满足视觉, 语音, 自然语言处理, 经典数据挖掘等领域复杂场景下 (如大数据量, 多任务, 多模态, 低延时, 高通量) 的云端智能处理需求.

今天发布会上, 搭载MLU100的板卡也一起亮相, 该板卡使用PCIe接口, 外形设计灵感来自于寒武纪地质时代的远古海洋生物三叶虫, 以黑色, 蓝色为主色调. 基于MLU100智能处理卡, 联想推出了ThinkSystem SR650, 该云端智能服务器将支撑联想客户在机器学习/VDI/虚拟化/云/数据库/分析/SAP等方向的需求; 中科曙光也同步推出了升级的 'PHANERON' , 该服务器性能更为强劲, 支持2-10块寒武纪MLU处理卡, 能灵活应对不同的智能应用负载.

至于首款云端智能芯片的性能到底有多强, 陈天石在发布会现场公布了在R-CNN算法下MLU100与Tesla V100和Tesla P4的计算延迟对比, 数据显示MLU100的计算延迟为125ms, Tesla V100的延迟为174ms, Tesla P4的延迟为1069ms, 结果显而易见.

不过, 雷锋网认为人工智能的实现硬件只是一方面, 软件与硬件的协同工作也十分关键. 可以看到的是, 寒武纪从 2016 年起逐步推出了寒武纪 NeuWare 软件工具链, 该平台终端和云端产品均支持, 可以实现对 tensorflow, caffe 和 mxnet 的 API 兼容, 同时提供寒武纪专门的高性库, 可以方便地进行智能应用的开发, 迁移和调优. 可以方便地进行智能应用的开发迁移和调优, 并通过了千万量级用户大规模商用的检验.

但目前英伟达GPU在云服务器中占据优势, 一方面是英伟达是传统的GPU大厂, 具有硬件优势, 另外开发者可以使用C语言为英伟达CUDA架构编写程序, 强大的硬件以及易用的开发软件使其对开发者有更大的吸引力. 相比较而言, 英伟达对CUDA投入的时间和资金更多, 也更加完善和成熟, 寒武纪想真正在云端人工智能芯片对标英伟达, 目前来看现实吗?

北极光创投董事总经理杨磊告诉雷锋网, '我没有见过一个芯片创业公司做同时发布两个产品的发布会, 只有你的体量到了英伟达这种水平, 它的GTC可能会有几个产品同时发布. 一家芯片创业公司同时发布几个产品, 我觉得是一个比较有挑战的事情. '

'我们投资的公司通常是在一个垂直领域做得非常深, 专心把一个东西做好, 从而成为英伟达的替代品. ' 北极光投资经理, 前 Intel 人工智能中国区商务负责人赵顾补充说, '英特尔收了Movidius 做消费级市场, 收了 Mobileye 做车载, 收了Nervana 做云和边缘计算的产品. 实际上英特尔这么大的体量, 也没办法同时去支撑不同的市场, 所以说不做深我觉得未来是没有竞争力的.

'我们的策略就是在不同的垂直市场把它做深, 而且要真正做到全栈的东西给到用户, 能让它真正应用. Movidius 这样的公司在中国的市场最大的挑战就是不能提供一个完整的解决方案, 所以就没办法规模化. ' 赵顾同时表示.

寒武纪实现云到端的覆盖未来计划发布编程语言

在此, 我们暂不更进一步探讨寒武纪的产品目前能否对标英伟达, 可以明确的是寒武纪云端智能芯片的推出使其实现了由端到云的覆盖. 陈天石表示, 过去大部分芯片厂商都是主攻端或者云, 两者兼顾的很少. 因为端云的任务生态都区别比较大, 但是智能时代我们认为这个局面会被打破, 端和云的AI任务是一体的, 编程和使用的生态也是一致的.

作为通用机器学习芯片的厂商, 寒武纪要端云结合共同推动生态. 寒武纪未来还计划发布自己的编程语言, 希望合作伙伴能够基于这套软件系统发布产品.