从 Rokid 的这款自研 AI 芯片说起在昨晚深圳湾的报道中, 我们对 KAMINO18 做出了这样中立的描述:
一块 AI 语音专用的 SoC 芯片, 集成了 ARM, NPU, DSP, DDR, DAC 等多个核心元件, 而大小仅与一元硬币相当. 结合 Rokid 相控阵技术, CTC模型, 自定义唤醒词, 离线语音指令, 低功耗唤醒等算法, 在整机工作状态下, 搭载 KAMINO18 的产品功耗可降低 30%-50%. 在声音嘈杂的场景下也有更好的表现, 同时能够支持更多的离线功能. 而在成本上, KAMINO18 的整体成本相较市场主流通用芯片方案可以压低 30% 以上.
喜马拉雅 FM 也宣布正式与Rokid 确定战略合作关系, 喜马拉雅的儿童智能音箱晓雅 Mini 即将成为使用 Rokid KAMINO18 的外部产品. 同时, 喜马拉雅 FM 在能容方面的能力也将被整合到 KAMINO18 中.
此外, Rokid CEO Misa 还宣布 KAMINO18 即将支持 Amazon Alexa, 基于语言识别技术, 可以实现在若琪和 Alexa 之间无缝切换, 识别到用户说中文时调用若琪, 说英文时则调用 Alexa.
在会后的采访中, Misa 表示, Rokid 并不是「卖芯片」, 芯片只是 Rokid 对外输出技术解决方案时「有竞争力的元素」, Rokid 在 AI 领域的产品经验和能力还是会通过技术方案的方式赋能给合作伙伴. 此外, Misa 还进一步透露, KAMINO18 目前已经拿下数百万片的预定.
尽管本着新闻原创的精神, 在报道中我们连图片都尽可能用现场拍的, 这个用硬币对比的芯片, 还是在现场巨大的环形屏幕的衬托下, 显得体积格外的大, 看上去就像一块集成了 AI 能力的开发板.
而这张在发布会之前我实际获得的谍报图片, 可能会让这个芯片看上去更加「Small is Beautiful」, 如 Misa 在发布会上所述:
半路杀出个程咬金
6 月 26 日是 Rokid 早就定好的发布会日期, 而在此之前可谓是「半路杀出个程咬金」, 云知声和出门问问分别早于 Rokid 开了发布会.
在 5 月26 日召开的出门问问战略新品发布会上, 李志飞做了一次创业 6 年来的商业战略解读, 同时推出了「中国首个已量产的 AI 语音芯片模组」. 可能是因为这个模组的名字叫「问芯」吧, 出门问问在发布会及之后的行业通稿里, 都在强调这是「模组」, 却被一众不清楚事实的媒体解读为「中国首款 AI 语音芯片」.
是不是首款, 是不是芯片, 对于这些解读, 没有人出来开撕, 出门问问官方自然就没有必要过问了. 重要的是, 李志飞也期待「为中国芯作出贡献」.
据李志飞介绍, 「问芯」基于去年出门问问推出的智能语音交互 SDK 而打造, 集成了出门问问的麦克风阵列信号处理技术, 语音交互 SDK 与可定制语义技能.
是时候介绍 Rokid, 出门问问这些明星背后的芯片公司了
杭州国芯科技是 Rokid 和出门问问的芯片合作方, 我对这家公司的了解, 开始于去年 10 月他们在深圳召开的一次发布会. 当时, 这家杭州「国」字头从机顶盒方案起家的老牌芯片企业, 仅花了 10 万元组织了一场活动, 邀请到了 Misa 等一票合作伙伴为之站台, 并宣布推出适合音箱, 电视, 儿童故事机, 车载等 AI 产品的 GX8010 物联网人工智能芯片.
简单综述一下这款芯片的特性 (详情可以参阅深圳湾报道——功耗问题让智能音箱离不开固定电源, 而这家国产 AI 芯片商的方案值得看) :
本地离线神经网络计算: 内置了国芯自主研发的 gxNPU 神经网络处理器, 压缩计算权重, 使得计算时需要的内存和带宽更少, 从而实现离线计算.
高集成: 集成了 Cadence Tensilica 最高阶的语音 DSP Hifi-4, 该专为智能语音设计的 DSP 可高效地进行各种语音信号处理计算. 同时在这颗 DSP 上, 集成思必驰, Rokid 等语音算法公司的 AI 算法能力.
低成本: 因为高度集成, 使得产品所需的外围器件减少, 从而降低了 BOM 成本.
低功耗: 在动态功耗上, 利用多核异构的优势, 合理安排每个模块的工作频率和启停时机; 待机方面, 采用了多级唤醒机制.
谁在 AI 芯片的风口浪尖?
对于 WHO 的问题, 抛开如上那些「弄潮儿」制造的新闻热点, 杭州国芯人工智能事业部总经理凌云在与深圳湾的对话开篇, 就直截了当的给出了归纳性的回答:
最想做芯片的, 是这些 AI 算法公司. 在他们赋能和改造非智能产品的过程中, 他们需要更好的适应算法的硬件载体, 一方面便于调优算法, 提高效率; 另一方面则是出于更优的商业模式的考虑.
我以我文科生的脑袋, 对这一观点进行了解读, 详细阐释如下 (这样, 那些最初和我一样不懂芯片的人, 或许就能看懂了) :
AI 改造 IoT, 但 IoT 产品的使用场景和设备形态是各异的, 而这些设备又用的不同的芯片的, 这就难免这些 AI 公司和各种芯片公司打交道. 同时, 这些 AI 公司的算法能力在落地到硬件终端 (如麦克风设备) 过程中, 还要在硬件端进行反复进行算法调优, 其中要打交道的人和物就更多了. 不可控性, 成本高, 效率低, 都催生了 AI 公司想要自己做专用芯片的想法.
AI 公司要将自己的算法能力赋能到 IoT 的各行各业, 其产品输出是以软件 SDK 的形式展开的, 而软件因为可以被核算为「零成本」而比较难的在客户那里报出价来, 因此 AI 公司就考虑通过「硬件化」来输出自己的能力. 产品升级路线一般为: 软件 SDK, 硬件模组, 芯片.
而以芯片为载体集成自己的云端服务能力, AI 算法能力, 以及从 AI 公司的角度所理解的硬件端的算法能力, 这样做的好处是: 成本透明, 可控, 运行效率高, 未来大规模量产后的利润可观, 以及可以更好的向董事会做前景规划.
这方面, 相比 BAT 等巨头, AI 创业公司更加灵活, 因而也跑的更快.
成为能够集成算法的芯片公司后, 传统芯片公司怎么看?
「有量吗? 」
这种颇有一番「呵呵」意味的不恭态度, 倒是接近问题的本质.
芯片的生意就是一门「低价走量」的生意. 设备上量, 成本降低, 利润增长. 而这个增长曲线, 也就成为了所有芯片公司进行前期产品选型, 以及后期产品销售的策略参考.
在深圳湾和杭州国芯的对话中, 凌云描述了「自研芯片」诞生的过程. 国芯和 Rokid 合作的定制芯片, 开始于去年秋季, 研发期已经有大半年了, 双方投入了不小的人力. 而国芯和出门问问的合作, 则开始于今年, 主要合作研发方向是前端语音模组.
而我们知道, 「芯片从流片到量产, 至少还需要 7~8 个月甚至更长的时间. 即便芯片量产后, 还要导入客户, 根据客户需求优化产品, 这还要有一个可能更长的周期. 我们都说芯片门槛高, 这个门槛主要是周期长. 这就需要芯片公司有很强的预判能力, 迭代不能错. 」
对于未来, 「我们看好 AI 这个方向, 公司也支持在这个方向投入人力物力. 」凌云告诉我们. 但是因为这个方向是崭新的, 产品要能达到起量, 可能还是需要一段时间的探索.
杭州国芯主打的两款芯片是 8010 (应用于智能音箱和儿童智能产品, 合作案例 Rokid) , 8008 (应用于电视机顶盒, 家电, 合作案例出门问问) , 当谈及国芯近期会不会有新品推出时, 凌云回答说: 暂时不会. 今年能把手头这些客户服务好, 就已经不错了.
因为地域的原因, Rokid 给了杭州国芯这家老牌企业很多启发, 算是把他们一只脚带进了 AI 领域. 这一代 AI 芯片从立项到量产, 用了两年的时间, 主要是产品研发的周期长, 立项决策其实是很快的. 两年前做这个决定时, 国芯对未来没有把握. 但是现在因为和这些 AI 公司的合作, 信心越来越强了. 凌云感慨到.
而作为智能硬件设备的设计方, 又该如何做选择?
针对这个问题, 我们和最近在为自己智能音箱新品选方案的团队聊了聊.
问: 作为下一个要开发智能产品的团队, 在选择使用谁家芯片的问题上, 你评估的标准是什么?
答: 芯片选择的核心是成熟度和成本的取舍. 之前的很多音箱用的更多是电视盒子的芯片, 成熟度高, 但是集成度低, 盒子上的 GPU 等部分在音箱上是用不到的, 同时为了挂载多路麦克风还要加额外的元器件, 因此成本普遍偏高. 对于新的芯片, 特别是 AI 专用芯片, 因为是专门的 NPU 做的算法, 所以首先看的是算法的成熟度, 其次是看芯片厂商的服务能力, 要能把底层的坑先解决掉.
问: 而对于算法公司下沉做芯片公司的这股浪潮, 怎么看?
答: IoT 本身就是面向一个更确定的细分场景去渗透, 音箱这波市场前景很明确, 给了很多算法公司一个机遇, 所以做芯片或者和芯片公司深度合作, 能够提升他们的竞争力.
当然我们也得清楚, 像英伟达, 赛灵思这类传统的芯片公司, 本身算法也很强大, 芯片和算法的融合会更强. 即便算法公司不做芯片, 芯片公司也一直在做算法.
可以往回看, 最早一波双摄像头的方案都是算法公司做的, 现在基本高通, MTK 这些芯片本身就带双摄算法, 未来在其他领域也一样. 之前最牛逼的双摄算法公司 LINX 直接被苹果收购了.
在 Rokid 发布会结束后, 一群老友围在一起各种聊天. 无意中, 听到 Rokid 的一位早期投资人这样描述他们对于 Rokid 耗资近千万开这样一场发布会的态度, 他说:
还是要支持这些梦想家的.