聲紋辨識/語意理解為主要進化方向 | 中文智能喇叭市場看好

近年來英語市場各大品牌紛紛發表自有語音助理與智能音箱, 除了意味著人工智慧技術開始應用於居家場域之外, 也宣布了語音人機介面的時代已然來臨. 而中文語音識別技術開發相較於英文更為困難, 人們的生活習慣以及對於智能家庭的需求也有所差異, 因此在地廠商在開發技術與拓展中文市場時, 考慮亦與歐美有所差異.

自2014年亞馬遜(Amazon)發表了智能喇叭Echo之後, 為智能家庭與語音助理的結合帶來全新想象. Google, 蘋果(Apple)等大廠也紛紛加入戰局, 推出各種不同市場定位的智能喇叭(表1).

根據市調機構Global Market Insights研究報告指出, 2016年全球智能喇叭市場規模為4億美元, 預估到2024年將快速成長到130億美元. 智能喇叭市場前景看好, 成長速度也將非常快速. 另外, 台北國際計算機展(COMPUTEX TAIPEI)共同主辦單位台北市計算機公會, 也在日前發布新聞, 表示自2017年9月開放2018年展會線上登錄以來, 看到許多端點AI裝置, 語音助理解決方案等創新應用產品廠商參展. 台北市計算機公會進一步分析, 此趨勢是由於人工智慧語音助理(Voice Assistant)的成熟, 智能喇叭可透過與語音助理功能介接, 搭配搜尋, 查詢與日常用品導購功能, 可提供更完整的人工智慧生活服務.

以中文市場而言, 中國各大網路巨頭自2015年起, 也紛紛發布自有的智能喇叭產品. 並且如同歐美市場一般各自有其市場優勢. 例如, 阿里巴巴與Amazon皆已掌握相當大的電子商務市場市佔, 透過智能喇叭能夠讓消費者透過不同渠道體驗更完整的購物服務; 小米則與Apple相似, 在推出智能喇叭之前便已累積許多備受市場肯定的硬設備, 搭配智能喇叭能讓各硬體之間有更完整的串接, 讓消費者實現更加智能化的居家生活.

要推動智能家庭的實現, 必須與現實生活模式完美銜接, 才能創造消費者需求. 根據NPR And Edison Research所提供的數據指出, 在已經購買智能喇叭的用戶中, 有87%用戶期待能夠透過語音輸入介面搜尋資訊. 由此可見, 中文語音識別技術便是經營中文市場首要必須突破的技術門坎(圖1).

圖1 智能喇叭用戶的購買目的統計

多種語言交叉辨識符合台灣現實生活情境

工研院資通所技術推广部副組長張振魁指出, 工研院自2016年第四季開始整合已開發多年的語音識別技術, 開發出ITRI語音助理. 期待能夠秉持著對於在地的了解, 開發出最符合台灣生活習慣的語音助理. 相較於國際大品牌所推出的語音助理, 智能喇叭產品, ITRI語音助理已經能夠做到更精準的中文語音識別. 目前正在積極開發多語言辨識功能, 未來若用戶在中文語句之中, 夾雜英文或是台語單字, ITRI語音助理也能夠精準辨認用戶指令(圖2).

圖2 工研院資通所技術推广部副組長張振魁指出, ITRI語音助理已經能夠做到比國際大廠更精準的中文語音識別.

未來ITRI語音助理除了持續開發英語, 台語等更多語言辨識功能, 並持續開發市場應用之外, 中文的語意理解更是會持續優化的重點. 首先, 由於不同國家或是地區方言, 都會有不同的文法語意使用方式, 未來工研院將會結合機器學習技術, 快速擴大不同語言的語意資料庫. 再者, 在智能喇叭的使用情境之中, 常常會是所有家庭成員共同使用一台設備. 因此, 透過聲紋辨識技術做到語者辨識功能也是開發重點, 才能夠使智能喇叭搜集到完整且正確的用戶行為數據. 最後, 用戶的語調情緒在未來也是開發重點之一; 藉由用戶輸入資訊時的語氣, 判斷用戶發出該指令時的急迫性以及情緒變化, 是透過其他的人機界面皆無法得知的. 因此, 在未來語調情緒也會是語音識別能夠搜集到的珍貴數據之一.

張振魁分析, 台灣雖然市場規模相對較小, 但是依然有其市場待廠商開發. 台灣大部分的相關製造商以代工外銷為主要盈利來源, 許多生產路由器等產品的網通業者, 也已經開始代工智能喇叭並輸出外銷. 除了硬體生產技術之外, 台灣也有相當成熟的電子商務平台; 電信業者所提供的音樂, 電影, 書籍等內容服務亦相當完整. 在歐美相當成功的智能喇叭商業模式要素而言, 台灣在同樣領域也都能提供相當完整的服務.

中文市場智能喇叭營利模式各異

儘管經營市場最久的Amazon Echo主要盈利模式依然是電子商務平台導購, 然而由NPR And Edison Research所統計的數據指出, 有九成的智能喇叭用戶表示, 聆聽音樂是他們購買智能喇叭的原因之一, Google也在2017年的Made by Google大會上, 推出與Apple HomePod一樣標榜高質量音效的Google Home Max(圖3). 在2017年, Amazon推出了更多不同功能的智能音箱, 如結合鏡頭的Echo Show以及結合顯示器的Echo Look. 隨著各大廠商搜集的數據逐漸完整, 新一代智能喇叭的市場定位更加精準. 接下來在歐美市場, 智能喇叭會如何以語音助理為核心, 擴展技術功能與市場定位, 值得繼續關注.

圖3 Google於2017年推出標榜高質量音效的Google Home Max以及較低單價的Google Home Mini. 圖片來源: Google

另外, 在2017年百度, 阿里巴巴, 騰訊以及小米所推出的智能喇叭, 於中國市場皆有大幅度的成長. 恩智浦(NXP)大中華區微處理器與微控制器事業部資深營銷經理張小平預估, 在2018年的中國市場發展將比2017年更加迅速, 市場上大約能有2,000萬台智能喇叭(圖4).

圖4 恩智浦(NXP)大中華區微處理器與微控制器事業部資深營銷經理張小平預估, 在2018年的中國市場發展將比2017年更加迅速.

但是目前無論是在中國或是全球市場, 智能喇叭的普及度皆有待提升. 張小平認為, 目前的中文語意理解精準度偏低是智能喇叭無法普及的主要原因. 例如, 當前的智能助理服務多需要先說出喚醒詞, 才能開始以語音輸入資訊, 然而這並不是最直覺的使用方式. 張小平預測, 在未來, 喚醒詞將被聲紋辨識, 智能辨識技術的優化所淘汰; 在語音助理能夠以辨識用戶聲紋與分析上下文的方式判斷語音指令時, 才能達到最靠近自然人類行為的語音人機介面. 然而, 由於中國品牌的智能喇叭皆是以相當低廉的價格上市, 對於市場的教育與推廣皆有相當大的幫助. 儘管此技術的人工智慧等級要求相當高, 然而張小平預測, 此技術將在2020年前便會有重要突破, 達成語音識別的終極產品型態.

張小平進一步指出, 不同世代的用戶有著不同特性, 對於1990年後出生的數字原住民(Digital Native)而言, 萬物聯網的情境會被視為理所當然. 隨著他們成為社會中堅, 智能家庭的時代也會隨之到來.

在目前的智能喇叭中國市場中, 競爭已殺成紅海. 然而, 目前相較於透過銷售硬體獲利, 對於廠商而言更重要的是取得更多數據以修正語音處理的能力. 張小平認為, 透過中國網路巨頭的帶動, 再經過1~2年的數據累積, 智能喇叭和語音助理技術將大幅提升, 用戶對於語音人機介面也更加熟悉, 屆時將會看到更多的相關產品出現. 另一方面, 張小平指出, 在智能家庭方面小米的布局最為完整, 已建立了完整的生態系, 最快在2018年就能看到大幅度的市佔成長.

百度有望拿下中文語音助理市場

拓墣產業研究院分析師林貞妤認為, 在中國眾多雲端服務企業之中, 以百度的布局最為值得關注. 百度的智能語音助理DuerOS, 在百度智能雲, 百度大腦二大雲端服務支撐之下, 采開放平台方式, 為開發者提供工具, 數據和開發環境, 試圖在中國建立起如Amazon, Google完整的人工智慧生態系(圖5).

圖5 拓墣產業研究院分析師林貞妤認為, 在中國眾多雲端服務企業之中, 以百度的布局最為值得關注.

在中國三大雲端服務廠商(百度, 阿里巴巴, 騰訊)之中, 百度的態度相對最為積極. 百度在2017年的AI開發者大會上, 高喊「All in AI」口號, 宣布將全力發展人工智慧繼續與相關市場開發. 而DuerOS的推廣便是百度的人工智慧事業中的重點項目之一.

林貞妤指出, 目前許多業者希望投入智能家庭, 智能喇叭市場, 然而盈利模式都有待再思考; 百度的開放平台商業模式具備強大競爭力, 前景看好. 百度提供開放平台的將快速取得大量數據數據, 進而優化DuerOS功能. 最值得關注的是, 目前只要透過軟體更新, 便能在一分鐘之內將搭載Amazon Alexa的智能家電轉換為DuerOS的中文介面. 因此, DuerOS不只是能在中國國內市場推廣, 海外華人也能以該模式使用DuerOS語音助理服務.

在語音人機界面的發展曆程中, 於居家場域使用智能喇叭只是第一步, 必須要先讓智能喇叭成功普及, 消費者才會習慣使用語言與機器溝通, 接下來也才能發展出更多語音介面的應用可能.

2016 GoodChinaBrand | ICP: 12011751 | China Exports