业界领先的智能芯片设计公司寒武纪科技今天于上海发布了Cambricon MLU100 云端智能芯片和板卡产品, 寒武纪1M终端智能处理器 IP 产品. 联想, 曙光和科大讯飞作为寒武纪的合作伙伴同时发布了基于寒武纪芯片的应用产品.
寒武纪由端入云, 树立AI芯片新标杆
在发布会上, 寒武纪公司创始人兼CEO陈天石博士发表了主旨演讲. 陈天石博士回顾了寒武纪创业的初衷, 并介绍了寒武纪开放, 协作, 共赢的商业理念: 与全球上下游的合作伙伴紧密合作, 为人类迈向智能时代构建核心物质载体. 在演讲中, 陈天石博士正式对外发布了寒武纪的两款全新产品: 终端智能处理器IP产品寒武纪1M, 云端智能芯片Cambricon MLU100及其板卡.
寒武纪在2016年推出的第一代终端智能处理器IP产品寒武纪1A是全球第一款商用终端智能处理器IP产品, 已经应用于千万级智能终端中 (包括华为Mate10, P20和荣耀10等手机) . 这次最新发布的寒武纪1M是公司的第三代IP产品, 在TSMC 7nm工艺下8位运算的效能比达5Tops/watt (每瓦5万亿次运算) , 提供三种规模的处理器核 (2Tops/4Tops/8Tops) 以满足不同应用场景下不同量级的智能处理需求, 并可通过多核互联进一步提高性能. 寒武纪1M处理器延续了寒武纪前两代IP产品 (寒武纪1H/1A) 卓越的完备性, 单个处理器核即可支持CNN, RNN, SOM等多样化的深度学习模型, 并更进一步支持SVM, k-NN, k-Means, 决策树等经典机器学习算法, 支持本地训练, 为视觉, 语音, 自然语言处理以及各类经典的机器学习任务提供了灵活高效的计算平台, 将广泛应用于智能手机, 智能音箱, 智能摄像头, 智能驾驶等不同领域当中.
这场发布会的焦点是首次正式亮相的Cambricon MLU100云端智能芯片. MLU100采用寒武纪最新的MLUv01架构和TSMC 16nm的先进工艺, 可工作在平衡模式 (1GHz主频) 和高性能模式 (1.3GHz主频) 下, 平衡模式下的等效理论峰值速度达每秒128万亿次定点运算, 高性能模式下的等效理论峰值速度更可达每秒166.4万亿次定点运算, 但典型板级功耗仅为80瓦, 峰值功耗不超过110瓦. 与寒武纪系列终端处理器一样, MLU100云端芯片仍然延续了寒武纪产品一贯出色的通用性, 可支持各类深度学习和经典机器学习算法, 充分满足视觉, 语音, 自然语言处理, 经典数据挖掘等领域复杂场景下 (如大数据量, 多任务, 多模态, 低延时, 高通量) 的云端智能处理需求. MLU100的板卡使用PCIe接口, 其外形设计灵感来自于寒武纪地质时代的远古海洋生物三叶虫, 以黑色, 蓝色为主色调, 简洁而富有科技感.
寒武纪终端和云端产品均原生支持寒武纪NeuWare软件工具链, 可以方便地进行智能应用的开发, 迁移和调优. 陈天石表示, 寒武纪创立的初衷就是要让全世界都能用上智能处理器. 寒武纪将秉承学术界开放, 协作的精神, 以处理器IP授权的形式与全世界同行共享寒武纪最新的技术成果, 使全球客户能够快速设计和生产具备人工智能处理能力的芯片产品; 寒武纪在技术上贯彻 '端云协作' 的理念, 这次发布的MLU100云端芯片, 不仅可独立完成各种复杂的云端智能任务, 更可以与寒武纪1A/1H/1M系列终端处理器完美适配, 让终端和云端在统一的智能生态基础上协同完成复杂的智能处理任务.
寒武纪生态爆发, 产业伙伴展示寒武纪芯片应用
在陈天石博士的主旨演讲之后, 寒武纪的部分产业伙伴公开展示了基于寒武纪芯片的应用方案. 联想集团于今日的发布会上推出了基于Cambricon MLU100智能处理卡的ThinkSystem SR650, 打破了37项服务器基准测试的世界记录. 该产品为2U2路机架式规格, 支持2个MLU100智能处理卡. 这款云端智能服务器的面世将全面支撑起联想客户在机器学习/VDI/虚拟化/云/数据库/分析/SAP等方向上的业务需求.
中科曙光也在今日的发布会上同步推出了基于Cambricon MLU100智能处理卡的服务器产品系列 'PHANERON' . PHANERON系列于2017年11月面世, 基于寒武纪此前公布的一款原型测试芯片. 而此次发布的 'PHANERON' 新品跟随MLU100智能加速卡的发布进行了同步升级, 性能更为强劲, 可以支持2-10块寒武纪MLU处理卡, 灵活应对不同的智能应用负载. 以升级版的PHANERON-10为例, 单台服务器可集成10片寒武纪人工智能处理单元, 可以为人工智能训练应用提供832T半精度浮点运算能力, 为推理应用提供1.66P整数运算能力, 典型场景下的能效提升30倍以上. 此外, 中科曙光还披露了人工智能管理平台SothisAI, 可以与寒武纪的芯片及其开发环境实现无缝对接, 深度融合.
智能语音应用的领头羊科大讯飞公司也在今日的发布会上披露了与寒武纪芯片的深度合作研发项目. 根据介绍, 一小时的语音数据在一个传统处理器上进行智能应用处理, 需要一万小时才能完成, 因此科大讯飞一直在跟踪人工智能专用芯片的前沿进展. 早在2014年, 科大讯飞就开始与寒武纪的早期研究团队开始沟通相关语音算法在处理器上的实现, 并于2016年的天使轮注资寒武纪, 2017年开始在寒武纪芯片上进行应用测试. 科大讯飞于发布会上披露的测试结果表明, 寒武纪的智能处理器在语音智能处理上交出了优异的答卷, 能耗效率领先竞争对手的云端GPU方案达5倍以上. 寒武纪智能处理器的强大处理能力使得手机本地端可以处理更加复杂的机器学习算法, 使得语音本地识别准确率相对于传统处理器领先了9.8%, 显著提高了用户体验.