从中科院到思朗科技: 中国超高性能芯片的诞生之路

5G到来的进程正在加速.

目前, 5G正处于标准确定的关键阶段, 今年6月, 国际标准组织3GPP即将完成5G第一版本国际标准. 同时政策利好也不间断, 4月24日, 发改委, 财政部发布通知, 将降低5G公众移动通信系统频率占用费标准……

5G技术不仅能支持包括汽车在内的各类机器人(20.11 +3.93%,诊股)顺畅地互联互通, 也将是智能手机, 智能家居, 人工智能, 大数据及云计算等多个领域实现 '质' 的升级的基础技术.

面对这股迎面而来的5G浪潮, 中国的芯片行业准备好了吗? 虽然道阻且长, 但以华为海思为代表的中国智造依然让人期待. 目前在基带领域, 华为海思是唯一可与高通相比的中国公司, 这是华为30多年来各种要素积累的结果, 也非一蹴而就.

而在创业公司层面, 也有一家公司显得尤为特别: 脱胎于中科院自动化研究所, 原国家专用集成电路设计工程技术研究中心 (1992年组建) 的思朗科技, 由该中心原主任, 原中科院自动化所所长王东琳博士带队, 已经研制出高性能领域微处理器MaPU, MaPU首次实现了代数算法级全局优化且高度可编程, 已于2015年流片成功.

MaPU不仅完全可以实现国际巨头的可编程处理器的性能, 而且功耗比可媲美ASIC. 基于MaPU, 思朗科技进一步研制出了三大领域处理器: 面向5G通信领域的UCP, 面向多媒体领域的UMP, 以及面向超算领域的HPP. 同时, 还配备了AI领域处理器: 深度神经网络引擎NNE.

近日, 在中科院自动化所, 投资界采访到了思朗科技创始人兼首席科学家王东琳. 王东琳在国际上最早提出代数算法级 '全局优化计算' 架构, 基于此架构设计的MaPU在计算能力和性能功耗比方面具有国际领先水平.

思朗科技创始人兼首席科学家王东琳

高性能领域微处理器MaPU

王东琳介绍, MaPU最大的特点是计算能力强, 功耗低.

当前, 市面常用的处理器有几类, 一类是可编程的处理器, 比如英特尔, TI的处理器, 因为可编程, 适应性非常广. 但是当执行一个数学算法的时候, 它的运算器的利用率一般在15%左右, 高的能到20%. TI的处理器, 运算器利用率最高也仅可以到40-50%. 就是说这些处理器空有那么高的频率, 空有这么多资源, 但它的执行效率不高.

还有一种是不用编程的ASIC方案, 它用硬件把算法流程和对算法的控制都已经写好了. 这种实际上就是算法的加速器, 因此执行效率会非常高, 几乎可以接近100%.

很明显, 可编程处理器和ASIC之间在功耗上有着巨大的差别. ASIC的问题是, 效率高, 但是算法不可变, 算法只要变化一点, 这个芯片就不能用了.

而MaPU既可以做到接近ASIC的效率 (计算资源利用率可以达到90%以上) , 同时也高度可编程, 兼具两者的优势.

以超算芯片为例, MaPU的性能功耗比全球第一

在王东琳看来, 当前主流可编程处理器的核心问题在于它是传统体系结构, 指令层次低并试图在运行时刻通过乱序多发射等技术尽可能实现局部并行执行. 这造成了芯片中计算资源利用率不高, 数据IO量大, 动态功耗大, 整体性能功耗比不高, 已经不适应当今社会对微处理器巨大计算能力以及极低功耗的双重渴求. 如果能从应用算法整体来考量时间及空间等不同维度并行特性, 并利用这些并行特性来进行整体性优化整理, 其内核中的运算器的使用率将获得大幅提高. 于是王东琳和他的团队经过精密的测算和试验, 提出代数算法级全局优化的解决方案.

'一条指令, 就可以实现一个代数算法, 所以叫做代数指令. 传统架构的指令集都是算术运算级的指令. ' 王东琳介绍说, MaPU将其升级为代数级算法指令, 'MaPU通过代数指令软流水线来零延时动态重构 (与算法相适应的) 硬件架构, 达到与ASIC基本相同的算法架构, 实现整个算法的全局优化执行过程. '

简而言之, MaPU既能支持应用算法级全局优化, 又能通过高度可重构的计算架构与存储体系在软件层面实现的这点, 可灵活适应领域 (5G通信, 多媒体, 超算或人工智能) 内各种算法, 可以说MaPU集合了ASIC, FPGA, CPU的优势, 是几乎可以与ASIC的性能功耗比相媲美的 '软ASIC. '

'MaPU-代数运算微处理器, 在并行代数运算, 并行存储体系指令系统和硬件架构方面产生重大原始性创新, 将微处理器硬件支撑从标量/超标量运算提升至代数运算层次, 数量级地提升计算密集型领域微处理器能效比. ' 王东琳如此总结.

那么, 具体的性能以及功耗比指标如何, 王东琳给出了一组直观的对比数据:

以极光H1.0超算芯片为例, 芯片内部集成32个HPP处理核, 双精度浮点处理能力将达到4,659GFLOPS@64, 经评估功耗仅为40W左右, 性能功耗比达到 116GFLOPs@64/W, 为全球第一.

因此, MaPU应用量产之后, 它独创的架构优势将有望使我国在微处理器架构上实现重大突破, 在同等能耗比下释放巨大计算能力, 引领中国电子行业的自主创新发展.

对此, 中科院院长白春礼在今年3月曾在媒体表示: '在高科技产品研发方面, 中科院即将发布一款具有完全自主知识产权的微处理器——MaPU代数处理器, 达到国际领先水平. 相信MaPU系列处理器问世以后, 将在世界计算机, 通信等领域以及广大消费电子市场产品中大放异彩. '

'MaPU的三个孩子'

在MaPU的基础上, 思朗科技进一步研制出了三款性能强大的领域处理器: 5G通信领域处理器UCP, 多媒体领域处理器UMP, 以及超算领域处理器HPP.

UCP: 全球首次彻底实现软件定义无线电.

UCP是MaPU针对移动通信增强的通用通信处理器是5G宏基站基站处理器的芯片内核, UCP内核每秒可以完成5.8G定点复数FFT, 每秒可以完成55GBPS的LDPC编码以及2.5GBPS译码. 根据初步测算, 一颗含有二十个UCP内核的基带处理器就可以满足64天线5G宏基站全部基带处理需求.

'如果使用FPGS搭建5G系统, 则需要多片互联才能实现系统解决方案, 而基于FPGA的电路系统主频一般<400-600MHz, 片间互联总线带宽受限, 运算能力受限, 这将成为实现5G系统的瓶颈. ' 王东琳说.

目前UCP内核是国际领先的在可接受代价下实现全软件定义5G无线传输基带处理系统的处理器内核, 王东琳将UCP定义为 '移动通信领域彻底实现基带处理的软件定义无线电. '

除了基站设备制造商以外, UCP内核还可以提供给5G终端制造商. 由于5G标准的原因, 所有终端都要重新嵌入适应5G算法的基带内核 (原有的基带内核或者DSP内核无法应对5G下行接收和上行发送时的大运算量) , 这也是UCP内核的机会. 多合一无线通信设备, 各领域宽带自组网终端也都是UCP通过全软件定义无线电技术施展能力的空间.

UMP: 依靠它智能手机, 智能电视都可在线升级视听体验, 并可为高清摄影, 摄像等应用提供超级引擎.

UMP是MaPU的第二个 '孩子' , 面向智能手机, 智能电视的多媒体微处理器内核.

UMP在MaPU基本架构基础上发明了更高效的并行处理架构, 使得各类视频处理运算的性能功耗比与ASIC相媲美, 某些方面甚至胜出, 同时还保持了高度可编程特性.

'这种特点可以使家用电视随着电视厂家视音频处理算法演进在线改善视音频体验效果, 这是ASIC电视芯片无法比拟的. ' 王东琳表示, '同时也可以通过算法和软件改进快速推出新产品. '

4个UMP内核+1个ARM内核构成的超高清电视引擎芯片 (功耗不超过8 瓦) 可以满足4K超高清电视的所有视音频处理以及基于安卓系统电视管理的全部需求, 视听效果可以媲美索尼与三星最高端电视. 14个UMP内核+1个ARM内核构成的超级电视引擎芯片可以满足8K超高清电视所有处理与计算需求.

加上思朗研发的AI领域深度神经网络引擎NNE内核后, 不论是智能电视还是智能手机, 都可以在高清视频, 机器视觉, 人机交互方面实现性能大跃升, 让国产消费电子产品在较低成本下大幅提高用户使用体验. 第一款超级电视引擎芯片将于2018年底完成流片, 并可以开始面向智能电视制造商进行应用推广.

HPP内核超算处理器相较于Intel最新型处理器性能功耗比提高近一个数量级.

目前, MaPU的第三个 '孩子' HPP内核已经是一项比较成熟的产品.

'MaPU通过架构创新获得的核心能力还是高密集度计算. ' 因此, 王东琳一直希望通过MaPU针对通用计算领域增强型内核HPP (高性能处理) 构成超算型微处理器, 满足高端服务器领域的需求.

从而开发了极光H1.0——超级计算类MaPU微处理器 (预计年底完成流片及封测) , 经设计评估极光H1.0的性能功耗比远超国际上其它超算类微处理器, 可以作为超算系统及超级服务器的核心处理器.

王东琳给出了一组数据:

基于HPP内核的超算处理器极光H1.0与Intel最新型Xeon Phi性能相当, 但可16/32/64/128位灵活重构, 性能功耗比提高近一个数量级: 在提供同等64位浮点运算能力时极光H1.0 (2x16个HPP内核) 功耗是40W, Intel Xeon Phi处理器是300W.

NNE: 顶级深度神经网处理

思朗的另一款产品: 加速神经网络引擎NNE 继承并发展了MaPU的 '同心圆存储体系优化模型' , 并针对深度神经网络进行了优化, 优点是针对主流神经网络, 整网吞吐率高, 访存需求及功耗低, 与英伟达深度神经网内核性能相当但效率更高. 思朗的NNE在存储体系和配置深度神经网络时吸收MaPU全局优化思想, 性能功耗比上优势明显.

'NNE可以支持深度学习训练, 特别支持智能推理, 在视频图像识别方面做了专门优化, 在目标检测, 识别, 视频图像结构化方面具有较突出的优势. ' . 王东琳介绍.

一个可期待的应用场景就是智能驾驶, 在这个场景里, UMP可以高速处理多路摄像头图像并提取待识别目标; NNE负责理解判断处理路况, 车况并提供决策及驾驶控制所需要的关键信息; 而UCP负责提供极短时延的车联网通信能力.

甘坐冷板凳, 坚持研发了近10年的科研团队

思朗及其前身团队, 从2009年就开始部署新指令集体系结构的研究, 到研发出完全自主创新的微处理器架构MaPU已经经历了9年艰苦岁月. 研发团队系原国家专用集成电路设计工程技术研究中心的70多位核心科研人员.

2017年二季度开始, 团队开始公司化运作.

王东琳是个有技术信仰的人, 团队伙伴也是这样. 集成电路领域向来人才不足, 人员短缺. 因为做芯片等硬件太苦, 收益又不高, 不少优秀学生毕业后更愿意选择金融和互联网业. 做芯片就需要有工匠精神, 需要顶尖的技术人才愿意沉下心做研发, 并能长期承受住研发成功与否的压力. 思朗科技的研发团队做到了.

基于MaPU的几款增强领域处理器在各自领域各有优势, 实际上也可以组合使用, 从而落地到各种不同的实际场景中: 5G通信, 智能手机, 智能家居, 超算, 智能驾驶, 智慧城市, 机器人和无人机等等.

'摩尔定律不可能永远适用, 芯片性能升级遇到了世界性瓶颈, 这刚好是我们追赶的最佳机遇. ' 王东琳说, '芯片是一个需要耐心的行业, 我们已经做了9年, 基础已经打好, 接下来的重点是到实际应用中去调整, 去优化. '

2016 GoodChinaBrand | ICP: 12011751 | China Exports