声纹辨识/语意理解为主要进化方向 | 中文智能喇叭市场看好

近年来英语市场各大品牌纷纷发表自有语音助理与智能音箱, 除了意味着人工智能技术开始应用于居家场域之外, 也宣布了语音人机接口的时代已然来临. 而中文语音识别技术开发相较于英文更为困难, 人们的生活习惯以及对于智能家庭的需求也有所差异, 因此在地厂商在开发技术与拓展中文市场时, 考虑亦与欧美有所差异.

自2014年亚马逊(Amazon)发表了智能喇叭Echo之后, 为智能家庭与语音助理的结合带来全新想象. Google, 苹果(Apple)等大厂也纷纷加入战局, 推出各种不同市场定位的智能喇叭(表1).

根据市调机构Global Market Insights研究报告指出, 2016年全球智能喇叭市场规模为4亿美元, 预估到2024年将快速成长到130亿美元. 智能喇叭市场前景看好, 成长速度也将非常快速. 另外, 台北国际计算机展(COMPUTEX TAIPEI)共同主办单位台北市计算机公会, 也在日前发布新闻, 表示自2017年9月开放2018年展会在线登录以来, 看到许多端点AI装置, 语音助理解决方案等创新应用产品厂商参展. 台北市计算机公会进一步分析, 此趋势是由于人工智能语音助理(Voice Assistant)的成熟, 智能喇叭可透过与语音助理功能介接, 搭配搜寻, 查询与日常用品导购功能, 可提供更完整的人工智能生活服务.

以中文市场而言, 中国各大网络巨头自2015年起, 也纷纷发布自有的智能喇叭产品. 并且如同欧美市场一般各自有其市场优势. 例如, 阿里巴巴与Amazon皆已掌握相当大的电子商务市场市占, 透过智能喇叭能够让消费者透过不同渠道体验更完整的购物服务; 小米则与Apple相似, 在推出智能喇叭之前便已累积许多备受市场肯定的硬设备, 搭配智能喇叭能让各硬件之间有更完整的串接, 让消费者实现更加智能化的居家生活.

要推动智能家庭的实现, 必须与现实生活模式完美衔接, 才能创造消费者需求. 根据NPR And Edison Research所提供的数据指出, 在已经购买智能喇叭的用户中, 有87%用户期待能够透过语音输入接口搜寻信息. 由此可见, 中文语音识别技术便是经营中文市场首要必须突破的技术门坎(图1).

图1 智能喇叭用户的购买目的统计

多种语言交叉辨识符合台湾现实生活情境

工研院资通所技术推广部副组长张振魁指出, 工研院自2016年第四季开始整合已开发多年的语音识别技术, 开发出ITRI语音助理. 期待能够秉持着对于在地的了解, 开发出最符合台湾生活习惯的语音助理. 相较于国际大品牌所推出的语音助理, 智能喇叭产品, ITRI语音助理已经能够做到更精准的中文语音识别. 目前正在积极开发多语言辨识功能, 未来若用户在中文语句之中, 夹杂英文或是台语单字, ITRI语音助理也能够精准辨认用户指令(图2).

图2 工研院资通所技术推广部副组长张振魁指出, ITRI语音助理已经能够做到比国际大厂更精准的中文语音识别.

未来ITRI语音助理除了持续开发英语, 台语等更多语言辨识功能, 并持续开发市场应用之外, 中文的语意理解更是会持续优化的重点. 首先, 由于不同国家或是地区方言, 都会有不同的文法语意使用方式, 未来工研院将会结合机器学习技术, 快速扩大不同语言的语意数据库. 再者, 在智能喇叭的使用情境之中, 常常会是所有家庭成员共同使用一台设备. 因此, 透过声纹辨识技术做到语者辨识功能也是开发重点, 才能够使智能喇叭搜集到完整且正确的用户行为数据. 最后, 用户的语调情绪在未来也是开发重点之一; 藉由用户输入信息时的语气, 判断用户发出该指令时的急迫性以及情绪变化, 是透过其他的人机界面皆无法得知的. 因此, 在未来语调情绪也会是语音识别能够搜集到的珍贵数据之一.

张振魁分析, 台湾虽然市场规模相对较小, 但是依然有其市场待厂商开发. 台湾大部分的相关制造商以代工外销为主要盈利来源, 许多生产路由器等产品的网通业者, 也已经开始代工智能喇叭并输出外销. 除了硬件生产技术之外, 台湾也有相当成熟的电子商务平台; 电信业者所提供的音乐, 电影, 书籍等内容服务亦相当完整. 在欧美相当成功的智能喇叭商业模式要素而言, 台湾在同样领域也都能提供相当完整的服务.

中文市场智能喇叭营利模式各异

尽管经营市场最久的Amazon Echo主要盈利模式依然是电子商务平台导购, 然而由NPR And Edison Research所统计的数据指出, 有九成的智能喇叭用户表示, 聆听音乐是他们购买智能喇叭的原因之一, Google也在2017年的Made by Google大会上, 推出与Apple HomePod一样标榜高质量音效的Google Home Max(图3). 在2017年, Amazon推出了更多不同功能的智能音箱, 如结合镜头的Echo Show以及结合显示器的Echo Look. 随着各大厂商搜集的数据逐渐完整, 新一代智能喇叭的市场定位更加精准. 接下来在欧美市场, 智能喇叭会如何以语音助理为核心, 扩展技术功能与市场定位, 值得继续关注.

图3 Google于2017年推出标榜高质量音效的Google Home Max以及较低单价的Google Home Mini. 图片来源: Google

另外, 在2017年百度, 阿里巴巴, 腾讯以及小米所推出的智能喇叭, 于中国市场皆有大幅度的成长. 恩智浦(NXP)大中华区微处理器与微控制器事业部资深营销经理张小平预估, 在2018年的中国市场发展将比2017年更加迅速, 市场上大约能有2,000万台智能喇叭(图4).

图4 恩智浦(NXP)大中华区微处理器与微控制器事业部资深营销经理张小平预估, 在2018年的中国市场发展将比2017年更加迅速.

但是目前无论是在中国或是全球市场, 智能喇叭的普及度皆有待提升. 张小平认为, 目前的中文语意理解精准度偏低是智能喇叭无法普及的主要原因. 例如, 当前的智能助理服务多需要先说出唤醒词, 才能开始以语音输入信息, 然而这并不是最直觉的使用方式. 张小平预测, 在未来, 唤醒词将被声纹辨识, 智能辨识技术的优化所淘汰; 在语音助理能够以辨识用户声纹与分析上下文的方式判断语音指令时, 才能达到最靠近自然人类行为的语音人机接口. 然而, 由于中国品牌的智能喇叭皆是以相当低廉的价格上市, 对于市场的教育与推广皆有相当大的帮助. 尽管此技术的人工智能等级要求相当高, 然而张小平预测, 此技术将在2020年前便会有重要突破, 达成语音识别的终极产品型态.

张小平进一步指出, 不同世代的用户有着不同特性, 对于1990年后出生的数字原住民(Digital Native)而言, 万物联网的情境会被视为理所当然. 随着他们成为社会中坚, 智能家庭的时代也会随之到来.

在目前的智能喇叭中国市场中, 竞争已杀成红海. 然而, 目前相较于透过销售硬件获利, 对于厂商而言更重要的是取得更多数据以修正语音处理的能力. 张小平认为, 透过中国网络巨头的带动, 再经过1~2年的数据累积, 智能喇叭和语音助理技术将大幅提升, 用户对于语音人机接口也更加熟悉, 届时将会看到更多的相关产品出现. 另一方面, 张小平指出, 在智能家庭方面小米的布局最为完整, 已建立了完整的生态系, 最快在2018年就能看到大幅度的市占成长.

百度有望拿下中文语音助理市场

拓墣产业研究院分析师林贞妤认为, 在中国众多云端服务企业之中, 以百度的布局最为值得关注. 百度的智能语音助理DuerOS, 在百度智能云, 百度大脑二大云端服务支撑之下, 采开放平台方式, 为开发者提供工具, 数据和开发环境, 试图在中国建立起如Amazon, Google完整的人工智能生态系(图5).

图5 拓墣产业研究院分析师林贞妤认为, 在中国众多云端服务企业之中, 以百度的布局最为值得关注.

在中国三大云端服务厂商(百度, 阿里巴巴, 腾讯)之中, 百度的态度相对最为积极. 百度在2017年的AI开发者大会上, 高喊「All in AI」口号, 宣布将全力发展人工智能继续与相关市场开发. 而DuerOS的推广便是百度的人工智能事业中的重点项目之一.

林贞妤指出, 目前许多业者希望投入智能家庭, 智能喇叭市场, 然而盈利模式都有待再思考; 百度的开放平台商业模式具备强大竞争力, 前景看好. 百度提供开放平台的将快速取得大量数据数据, 进而优化DuerOS功能. 最值得关注的是, 目前只要透过软件更新, 便能在一分钟之内将搭载Amazon Alexa的智能家电转换为DuerOS的中文接口. 因此, DuerOS不只是能在中国国内市场推广, 海外华人也能以该模式使用DuerOS语音助理服务.

在语音人机界面的发展历程中, 于居家场域使用智能喇叭只是第一步, 必须要先让智能喇叭成功普及, 消费者才会习惯使用语言与机器沟通, 接下来也才能发展出更多语音接口的应用可能.

2016 GoodChinaBrand | ICP: 12011751 | China Exports