人工智慧語音進化史三部曲

關於人工智慧誕生沒有統一說法, 有部分學者以1950年 '人工智慧之父' 馬文·明斯基建造世界上第一台神經網路計算機為起點. 且以當年語音交互起始到現在, 大致經曆三段演化和推進. 讓我們一起回顧整個過程, 來看一下人工智慧語音發生的幾次技術躍進.

人工智慧語音1.0: 一問一答

現在, 工智能語音技術在數位, 電子, 工業製造領域被廣泛應用並且成為全民熱議的話題, 可是在發展之初它還有很多稚嫩的地方. 關於人工智慧時代的討論有很多, 但在消費層面上, 真正大範圍進入用戶試用階段的人工智慧語音應用大概在2010年之後. 這個階段的人工智慧語音技術形成了以語音交互為主的感知狀態, 我們暫且稱之為第一階段.

這時的人工智慧語音應用通過演算法的演變和大量數據的輸入, 在技術層面實現自然語音識別和語義理解, 針對對話內容進行數據匹配, 然後調取相關話題, 從而實現簡單內容的單向一問一答. 第一階段在自我學習, 邏輯推力方面有很大欠缺, 不能針對同一對話內容展開深入交互, 橫向拓展和縱向發展都不能滿足用戶需求. 例如你問今天天氣如何? 他調取今天的天氣數據. 接著你問明天的天氣如何? 他調取明天的天氣預報. 今天天氣和明天天氣只是各自獨立的對答, 不能連接貫通, 形成邏輯.

關於人工智慧語音技術的研究, 國外企業投入較早, 且發展也比較全面. 像Nuance, 曾經在語音識別方面功績卓著, 到現在為止仍然是全球最大的語音技術公司, 專利數量和市場份額都遙遙領先. 之後包括亞馬遜, 蘋果和穀歌, 都在深度挖掘智能語音, 推出自己的語音助手. 據不完全統計, 目前全球專業做人工智慧語音的公司有上千家之多, 後起之秀越來越多, 涉及的領域越來越廣. 如總部位於奧地利維也納的Cortical.io, 主要提供新型自然語言理解(NLU)解決方案. 由艾倫人工智慧研究所和亞馬遜Alexa基金等機構資助KITT.AI公司, 開發可定製熱詞檢測器(hotword detector)和對話引擎ChatFlow. 舊金山的MindMeld公司可提供對話式人工智慧平台等等.

人工智慧語音2.0: 有問有答

早在2000年, 比爾蓋茨曾經提出 '未來10年是語音的時代' . 我們目前所說的智能語音, 學術界稱為 '自然語言處理' (來自百度). 業內人士認為, 智能語音技術將會成為人類主流的人機交互方式之一, 計算機技術與人工智慧領域的發展為智能語音交互發展帶來了希望.

人工智慧語音交互的更深層階段——對話, 即有問有答, 包含上下文邏輯. 舉個例子或許更好理解, 如果一門課程上一年沒開設, 對於 '這門課程去年有多少同學沒通過' 這樣的問題, 機器是回答 '都沒通過' 還是 '去年沒開這門課' ? 同時機器還需要提前存儲 '去年沒開這門課' 的資訊, 想想我們從小時候啥也不懂到現在懂得的知識和資訊, 這是難以想象的數據量. 再比如說 '我想聽周杰倫的歌' , 機器只會將周杰倫的歌顯示出來, 並不能直接播放. 就是說假如你要做一件事情, 需要給機器一個明確的指令, 否則, 會讓人很煩躁, 因為你要一直說下去.

當然, '對話' 層面, 仍然停留在 '人機對話' 階段, 機器仍然停留在被動接受人類輸入大量數據階段, 相比 '問答' 層面, 只不過資訊流, 數據存儲量更大, 機器仍然不能更深層次理解人的意思, 無法實現自學習, 自成長, 與機器的語音交流還不能像人一樣自然.

人工智慧語音3.0: 自然交互

人工智慧進入第三階段, 最大的進展就是交互的進展. 不僅僅有問有答, 不僅僅包含上下文邏輯了, 人工智慧硬體能夠更多地融合各種環境資訊, 作出不同決策或推薦. 也就說, 在交互的過程中, 機器有了更多的主動性, 能夠為人提供更多, 更好的幫助, 讓人們的生活更便捷, 更安全, 更有趣.

有兩個比較典型的應用場景, 一個是智能汽車, 一個是智能家居.

2010年, 穀歌秘密研究的無人汽車項目被《紐約時報》記者曝光, 當時引起了不小的震動. 無人汽車即無人駕駛汽車, 也叫智能汽車, 主要是通過車載感測系統感知道路環境, 並依靠車內的人工智慧系統自動規划行車路線, 到達預定目的地.

穀歌無人駕駛汽車在開放道路上行駛時, 會對來往車輛, 行人, 路面環境資訊進行識別與分析, 為系統的決策判斷提供依據. 系統經過長期的 '學習' 後, 人工智慧具備的策略神經元將變得更加熟練高效, 並形成類似於人的 '感覺' , 能及時處理駕駛過程中的突發情況.

2016年1月, 美國國家公路安全交通管理局(NHTSA)在其網站上發布了公開信, 表示根據聯邦政府現行法律規定, 穀歌的無人駕駛汽車採用的人工智慧系統可以被視為 '司機' . 這被視為是人工智慧發展裡程碑的事件, 也標誌著 '智能' 可以像 '人工' 一樣感知, 判斷, 推理並做出決策, 可以實現主動控制, 也能更好地人機交互與協同.

在智能家居領域, 人工智慧的發展方向同樣是人機交互, 操作簡單, 通過大數據能夠進行自主判斷決策. 長虹前不久推出了人工智慧電視新品Q5K, 主打語義理解和模糊搜片. 不需要絕對明確的指令, 人工智慧電視能識別和理解用戶的語義. 比如當用戶說 '太暗了' 時, 電視能理解那是什麼意思並知道該怎麼做, 而不是非得等用戶說出 '調高亮度' . 再比如, 最近熱播的一部電視劇《那年花開月正圓》, 名字太長很多人記不住, 但只要你說 '我想看花開月圓' , 長虹人工智慧電視也能找到這部片. 如果連這幾個字都記不住, 說 '我想看陳曉的電視劇' , 它也會根據熱播影視數據推薦出這部片來. 甚至於說到 '我想看陳妍希老公的電視劇' , 這台電視也能理解, 你所說的八成就是這部由陳曉主演, 最近熱播的《那年花開月正圓》, 並為你播放出來.

這就相當於機器真正有了 '大腦' , 從而可以感知, 交互, 理解和決策. 因此, 也就能夠更好地為人類服務了.

天極新媒體 最酷科技資訊
掃碼贏大獎
評論
* 網友發言均非本站立場, 本站不在評論欄推薦任何網店, 經銷商, 謹防上當受騙!
2016 GoodChinaBrand | ICP: 12011751 | China Exports