AI推論進駐邊緣節點 | 影像/語音應用各佔半邊天

2018年AIoT市場成長驚人, 驅動了各種裝置的發展, 同時也促使深度學習功能逐漸由雲端轉向邊緣運算, 以實現低延遲, 低網路頻寬, 高隱私, 高效率的人工智慧應用體驗.

隨著人工智慧(AI), 邊緣運算(Edge Computing)等技術近年快速發展, 智能家庭這個概念所包含的各種消費性電子及家電產品, 都將陸續發生革命性的轉變. 最終, 由各種家庭設備所組成的人工智慧網路, 可能將成為你我看不到的另一個家庭成員. 而本地雲端的概念及其相關設備, 將是實現家庭人工智慧網路不可或缺的要素.

智能音箱/監控將成消費性AI兩大主軸

研究機構Ovum負責追蹤消費性科技發展的研究員Ronan de Renesse(圖1)表示, AI在消費性電子領域的應用, 近一兩年常常成為媒體關注的焦點, 但消費性電子與AI結合的趨勢, 現在才剛開始發展而已. 在未來三到五年內, 許多消費性電子產品都會搭載AI功能, 而且會彼此連結, 組成家庭裡的人工智慧網路.

圖1 Ovum消費性科技研究員Ronan de Renesse認為, 未來家庭中的各種電子設備, 將成為一個隱形的家庭新成員.

對硬體產業鏈而言, 這個趨勢固然會帶來許多新的商機, 但若從更高的層次來看, 這個悄悄進駐家中的人工智慧網路, 將會成為你我看不到的另一個「家庭成員」.

就硬體面來說, 大家耳熟能詳的智能音箱, 基本上是個相對成熟的產品, 在未來五年雖然銷量還會有明顯成長, 但成長力道將逐漸放緩. 預估到2022年時, 全球智能音箱的銷售金額將接近95億美元. 事實上, Renesse認為, 亞馬遜(Amazon)跟Google未來很可能不會再推出自有品牌的智能音箱, 因為這類產品本身的獲利空間不大, 對這兩家網路巨頭來說, 只要硬體業者用的是它們的平台服務, 能搜集到其所需要的用戶數據 , 目的就達成了.

同一期間, 家用智能監控系統這類產品的變化, 會比智能音箱更明顯. 目前所謂的家用智能監控產品, 其實並沒有人工智慧的成分, 而是將攝影機, 警報器, 門鎖, 感測器等硬體產品彼此連接, 形成一個支援事件觸發(Event Trigger)功能的保全系統. 但隨著相關軟硬體技術日益成熟, 未來家用監控攝影機搭載人工智慧的比例將會越來越高, 同時也能實現更多應用, 例如和語音助理搭配應用, 在多人使用的環境下, 更準確地為多名用戶提供不同服務.

消費性AI應用首重隱私保障

不過, 對硬體業者來說, 最值得注意的, 可能是本地雲端(Local Cloud)的概念及相關應用產品, 將隨著家中設備普遍支援AI而竄起. Renesse指出, 搭載AI功能的電子產品會產生大量用戶數據, 而且其中有很多是攸關個人隱私的數據. 因此, 如果這些搭載人工智慧的家庭電子產品完全得仰賴外部雲端才能運作, 顯然會造成隱私疑慮.

另一方面, 很多功能比較單純的消費性物聯網裝置, 受到電力, 運算能力, 生產成本等條件限制, 未必能支援很高階的AI演算法. 這時候, 本地雲端裝置將可扮演大腦的角色, 統一對這些裝置發號施令.

但Renesse也坦言, 目前還很難斷言哪種設備會扮演本地雲端中心. 有可能是比較高階的智能音箱, 也可能是智能電視或其他產品.

Arm資深市場營銷總監Ian Smythe(圖2)也認為, 相信未來將會有越來越多的運算和推論(Inference)引擎移至終端. 促成此一轉移的主要驅動力, 就是為了保障用戶的隱私. 藉由在終端處理分析的工作, 可以輕易的將數據匿名, 並確保敏感數據不會透過網路外泄. 以家庭應用為例, 消費者不會希望有人能從網路上得知自己家裡沒人的時間, 進而輕易地到家中偷竊.

圖2 Arm資深市場營銷總監Ian Smythe表示, 對消費性AI應用來說, 隱私保障機制是否可靠, 將是應用能否普及的關鍵.

針對視覺應用, Smythe認為, 支援視覺辨識功能的相機在本質上有些重要隱私問題的考慮. 很顯然地, 這些裝置必須經過設計, 使其不論在本機儲存或是傳輸到雲端時, 都能保護隱私及敏感的資訊. 由於傳輸通常以無線方式連接, 必須特別留心無線傳輸功能安全. 設計裝置的工程師必須確保網路聯機的裝置不會被黑客入侵, 窺伺.

電池壽命仍為主要技術挑戰

不過, 要將AI推向邊緣節點, 目前最大的技術挑戰仍是系統的耗電量. 以消費型監控攝影機為例, 消費者可能期望這類產品是完全無線的, 最好連電源線都不要. 這意味著這類產品必須以電池供電, 而且還要支援無線網路. 此外, 它還要能夠辨識所有物品, 以及需要無限的儲存空間.

上述需求對系統設計帶來很大的挑戰, 需要能夠數月不斷電的電池以運行機器學習(ML)的能力, 以及持續上傳檔案至雲端儲存的能力. 這些極端的情況對晶片設計和系統組件的要求相當嚴苛, 最重要的是, 他們掌握了在何時啟用這些功能的編排, 以延長電池壽命.

以家用監控攝影機來說, 攝影機並不需要24小時傳送空房內的影像, 僅在有未確認身分的人出現時上傳該部分的影像才合理. 同樣道理, 在像空房這樣場景不變的情況下, 啟用ML演算法並沒有意義. 縝密地安排在何處, 何時啟用這些功能, 才能讓消費性裝置得以在預期運作模式下, 僅需2顆AA電池, 便能長期正常使用.

也因為功耗是AI進駐終端裝置的主要障礙之一, 目前市場上有許多家新創公司均看準這個機會, 推出低功耗神經網路(NN)加速器矽智財(IP), 以便協助晶片開發商在降低功耗的同時, 又能滿足演算法推論所需要的效能. 耐能智能(Kneron)日前正式發布其神經網路處理器(NPU)系列, 是針對終端裝置所設計的專用人工智慧處理器IP. 該系列包括三款產品, 分別為超低功耗版KDP 300, 標準版KDP 500, 以及高效能版KDP 700, 可滿足智能手機, 智能家居, 智能安防, 以及各種物聯網裝置的應用. 全系列產品具備低功耗, 體積小的特性, 且提供強大的運算能力. 有別於市面上用於人工智慧的處理器功耗動輒數瓦起跳, Kneron NPU IP的功耗為100毫瓦(mW)等級, 針對智能型手機臉部辨識專用的KDP 300, 功耗甚至不到5毫瓦.

耐能產品營銷暨應用經理史亞倫(圖3左)指出, 要在終端裝置上進行人工智慧運算, 同時滿足功耗與效能需求是首要考慮. 因此, 針對個別應用推出優化的解決方案, 是非常關鍵的. 目前人工智慧的應用可大致分為語音跟影像兩大類, 其所使用的神經網路結構是不同的. 語音應用的重點在自然語言分析, 主流的網路架構是遞歸神經網路(RNN); 影像分析所使用的主流網路結構則是卷積神經網路(CNN). 為針對不同網路結構進行優化, 耐能提供的解決方案也不一樣.

耐能軟體設計經理沈銘峰(圖3右)則補充, 雖然自然語言分析對晶片運算效能的需求較低, 但由於語言的腔調, 說話習慣有很大的歧異, 因此其模型訓練所需的數據集遠比影像辨識來得龐大. 另一方面, 由於消費者已經很習慣使用蘋果(Apple) Siri, Google Assistant等以雲端為基礎的語音助理, 因此, 離線式的語意分析應用要獲得消費者青睞, 先決條件是必須在有限的運算資源下提供消費者近似的使用體驗. 這對於晶片供貨商跟系統開發商來說, 挑戰還是不小.

圖3 耐能產品營銷暨應用經理史亞倫(左)認為, 語音跟影像辨識在本質上有很大的不同, 需要靠不同解決方案來滿足. 右為耐能軟體設計經理沈銘峰.

事實上, 目前絕大多數的智能音箱, 都還不算是邊緣運算產品. 史亞倫指出, 不管是亞馬遜(Amazon)的Echo, 蘋果的Homepod或是採用百度, 阿里巴巴平台的智能音箱, 都還是要將數據傳回雲端進行處理跟語意解析, 才能響應用戶. 能在終端產品上直接執行的語音操作, 基本上多半採用規則模式(Rule-based), 而非基於機器學習的自然語意理解.

耐能自2016年推出該公司首款終端裝置專用的人工智慧處理器NPU IP後, 就不斷改善其設計與規格, 並針對不同產業應用進行優化. 在目前已開始提供給客戶的IP中, KDP 500已獲得系統廠客戶採用, 將於第二季進入量產製造(Mask Tape-out). 與搜狗合作的語音識別, 也已經實現離線語意解析, 讓終端設備即便不連上網路, 也能聽得懂用戶的語音指令.

Kneron NPU IP是針對終端裝置所設計的專用人工智慧處理器, 讓終端裝置在離線環境下, 就能運行ResNet, YOLO等深度學習網路. Kneron NPU為完整的終端人工智慧硬體解決方案, 包含硬體IP, 編譯程序(Compiler)以及模型壓縮(Model Compression)三大部分, 可支援各種主流的神經網路模型, 如Resnet-18, Resnet-34 , Vgg16, GoogleNet, 以及Lenet等, 以及支援主流深度學習框架, 包括Caffe, Keras和TensorFlow.

Kneron NPU IP功耗為100毫瓦等級, 超低功耗版的KDP 300甚至不到5毫瓦, 全系列產品的每瓦效能在1.5 TOPS/W以上, 由於採用了多項獨家技術, 因此能滿足晶片商, 系統商對低功耗, 高運算力的需求.

鎖定基本元素 硬體加速器不怕技術迭代

使用固化(Hardwired)電路來提升某些特定運算任務的執行效率, 降低功耗, 在晶片設計領域行之有年, 但其代價是應用彈性較低, 萬一市場對晶片功能的需求出現重大變化, 或是軟體演算法大幅修改, 晶片設計者就得重新開發新的晶片.

在市場對晶片功能的需求已經大致底定的情況下, 這種設計方式不是問題, 但在技術迭代速度很快的新興技術領域, 採取這種設計途徑, 在商業上就會有比較大的風險. 人工智慧就是技術迭代十分快速的領域, 幾乎年年都有新的演算法跟模型問世. 研究機構Open AI更指出, 過去6年間, AI模型訓練對運算效能需求, 每3.43個月就會增加一倍.

對此, 沈銘峰指出, 硬體加速器未必是毫無彈性的. 以耐能的產品為例, 在架構設計上, 該公司運用卷積核拆分(Filter Decomposition)技術, 將大卷積核的卷積運算區塊分割成多個小卷積運算區塊分別進行運算, 然後結合可重組硬體卷積加速(Reconfigurable Convolution Accelerating)技術, 將多個小卷積運算區塊的運算結果進行融合, 以加速整體運算效能.

用比較容易理解的比喻, 就像樂高積木可以組合搭建成各種型態的對象, 但整個對象本身仍是由少數幾種基本方塊堆棧而成. 耐能的方案是針對AI演算法不可或缺的基本元素進行加速, 藉此提升整個演算法的執行效能, 因此, 即便AI演算法更新的速度極快, 耐能的方案還是能發揮加速效果.

除了加速器本身的設計是針對基本元素, 而非特定演算法整體進行加速外, 耐能還提供其他與AI應用加速或部署的技術, 例如其模型壓縮(Model Compression)技術便將未經優化的模型壓縮數十倍; 記憶體分層儲存技術( Multi-level Caching)可減少佔用CPU資源以及降低數據傳輸量, 進一步提升整體運作效率. 此外, Kneron NPU IP能結合Kneron影像辨識軟體, 提供即時辨識分析, 快速響應, 不僅更穩定, 也能滿足安全隱私需求. 由於軟硬體可緊密整合, 讓整體方案體積更小, 功耗更低, 以協助產品快速開發.

影像辨識AI走向邊緣更迫切

整體來說, 目前市場對影像辨識的需求較為迫切, 離線語意分析雖然有智能音箱這個潛在的龐大應用市場, 但業者對此投注的資源反而較少. 造成此一現象的關鍵原因在於, 影像傳輸會佔用大量頻寬, 從而墊高整個系統的持有成本, 語音則沒有這個問題.

晶心科技總經理林志明(圖4)說明, 在人工智慧與物聯網結合的過程中, 也將帶動邊緣運算技術導入的需求. 邊緣運算技術將會被應用於各種不同的新興應用領域, 在此趨勢之中, 彈性, 快速是台灣廠商的最大優勢. 對於大多台灣廠商與IC設計公司而言, 由邊緣端切入人工智慧市場也較為容易.

圖4 晶心科技總經理林志明預估, IP Cam將是率先在邊緣裝置上執行AI推論的主要應用之一.

同時, 由於邊緣運算技術的導入, 也將帶來記憶體, 傳輸等等硬體需求的提升, 將大幅拉高製造成本. 由於影像相關的系統單晶片(SoC)原先就相對於其他應用更加複雜, 對於成本的耐受度也較大, 因此, 邊緣運算技術預計將由IP Cam等影像相關應用率先導入.

人工智慧應用可以分為訓練以及辨識兩個部分討論. 在深度學習的巨量運算過程, 短時間內依然會由雲端運算處理. 而邊緣運算所負責的任務, 則是將搜集到的資訊先做初步的處理, 將不重要的資訊過濾掉之後, 再將數據上傳至雲端, 以節省傳輸成本. 另一方面, 由雲端完成的深度學習成果, 也能夠使終端的辨識功能更加智能. 以IP Cam為例, 影像深度學習的工作能夠先由雲端運算完成, 待機器學會辨認行人, 車輛之後, 邊緣端的IP Cam只須執行辨認工作即可.

另一方面, 更由於IP Cam在治安維護, 小區安全上的應用廣泛, 因此政府與企業相對願意支援投入, 這也將成為IP Cam發展較為快速的原因.

林志明分享, 目前許多廠商皆在摸索該如何將人工智慧導入自家晶片, 系統之中. 目前的狀況類似於物聯網剛開始興盛時, 大家都還在摸索應用該如何切入, 估計在2020年左右廠商會推出更多實際的產品.

即時性應用必然採用邊緣運算架構

人工智慧是時下熱議題, 其中, 由雲端運算架構逐漸轉移至邊緣運算架構, 將會為供應鏈各廠商帶來不小的影響. 儘管短時間內人工智慧的發展將依然以雲端運算為主, 然而, 許多關於視覺應用人工智慧功能將開始導入邊緣.

賽靈思(Xilinx)視覺智能策略市場開發總監Dale K. Hitt(圖5)指出, 在可預見的未來裡, AI發展中的訓練組件可能仍由雲端運算主宰. 然而, 推論/部署組件已開始使用邊緣運算來支援各種需要低延遲與網路效率的應用.

圖5 賽靈思視覺智能策略市場開發總監Dale K. Hitt認為, 對需要極低延遲的應用來說, 邊緣運算將是最好的解決方案.

對於邊緣操作數件而言, 用於視覺相關應用的機器學習, 將是其中一項關鍵且影響深遠的大趨勢. 並且, 在工業機器視覺, 智能城市, 視覺分析以及自駕車市場都有強勁的成長潛力. 就工業視覺與消費應用而言, 由於邊緣運算須執行機器學習演算法, 因此對於效能的要求也比先前世代方案高出許多. 此外, 機器學習邊緣演算法/功能也已快速演化, 因此各界需要具備自行調適能力的硬體, 來針對未來機器學習推論架構進行優化.

Hitt以自駕車為例, 自駕車中每個感測器背後都有精密演算法支援, 負責從感測器數據中產出感知判讀的結果. 最新的趨勢是運用深度學習演算法來產出這些感知判讀結果, 然而, 深度學習演算法必須透過數量龐大的潛在情境加以訓練, 來學習如何判讀所有可能出現的感測器數據.

在經過訓練後, 深度學習演算法需要極高的運算效能與超低的延遲, 才能安全地操控車輛. 對於電動車而言, 則必須運用低功耗來因應工作溫度限制及延長電池電力. 半導體商的目標, 是提供高效能, 低耗電, 具調適能力的解決方案, 來滿足自駕車運行邊緣AI的各種需求.

在邊緣運算髮展的過程中, 最大挑戰在於市場的需求變化太快速, 因此能針對各種變化快速調適的技術極為重要, 才能讓企業維持競爭力.

Hitt進一步說明, 深度學習演算法正以飛快的速度持續進步, 許多2017年的領先解決方案至今已面臨淘汰的命運. 即使現在具有高出他人許多的能力, 隨著運算需求不斷攀升, 硬體方面仍須進行優化. 硬體必須以更快的速度更新, 才能避免被淘汰, 有些硬體甚至在投產中就面臨須更新的需求. 許多替代技術還須召回原廠來更新晶片.

Hitt補充, FPGA獨特的優勢在於包括運算, 記憶體架構以及連結等方面都能進行深度硬體優化. 和CPU與GPU相比, 優化後能以更低的功耗達到較高的效能, 而前兩者的硬體架構無法針對新衍生的需求快速進行優化.

邊緣運算大勢不可擋

仰賴雲端數據中心運作的AI應用, 雖然有極高的運算能力支援, 使其辨識正確性普遍高於依照簡化模型推論的邊緣裝置, 但在考慮到隱私疑慮, 即時響應與聯機成本等諸多因素後, 直接在邊緣裝置進行推論, 仍是十分有吸引力的選擇. 另一方面, 終端裝置的市場規模遠比雲端數據中心大, 有很強的經濟誘因. 這也是過去一年AIoT口號喊得震天價響, 各大半導體業者積極布局的原因.

展望未來, 完全由雲端支撐的AI應用仍會存在於市場上, 但比重勢必逐年降低, 取而代之的將是混合了雲端與邊緣運算的新架構. 對AI應用開發者來說, 雲端不可被替代的價值在於進行模型訓練, 而不是執行推論. 也因為這個緣故, 對應用開發者來說, 解決方案供貨商能否在「雲」與「端」之間實現無縫接軌, 將是應用開發者在評估供貨商時, 最重要的考慮.

2016 GoodChinaBrand | ICP: 12011751 | China Exports