EPFL研究團隊找出不讓AI規避人類命令的方法

人工智慧機器會執行特定動作, 觀察結果, 再據此調整行為. 之後會觀察新結果, 再次調整行為, 並從此重複過程中學習. 但此過程有可能失控. 洛桑聯邦理工學院(EPFL)分布式程式設計實驗室(Distributed Programming Laboratory)教授Rachid Guerraoui表示, AI總會試圖避免人為幹預, 因此AI工程師須防止機器最終學會如何規避人類命令. 根據ScienceDaily報導, 專門研究此問題的EPFL研究團隊已發現如何讓操作員控制1組AI機器人的方法, 並在加州舉辦的神經資訊處理系統(NIPS)會議上發表報告. 其研究為自駕車和無人機的發展作出重大貢獻, 使其能大量而安全地運行. 增強式學習(reinforcement learning)為機器學習方法之一. 在這種借鑒行為心理學的學習方法中, AI會因正確執行某些行為而獲得獎勵. 例如, 機器人若正確堆好一組箱子就能得分, 從屋外搬回箱子也能得分; 但是, 若外面下雨, 機器人走向屋外搬箱子時操作員就會中斷機器人的動作, 因此機器人最終會學會最好獃在室內堆箱子, 才能得到更多分. Guerraoui表示, 真正的挑戰不是中斷機器人的動作, 而是要寫程式, 讓人為幹預不會改變其學習過程, 也不會誘使它優化行為, 避免被人類阻止. 2016年, Google旗下DeepMind和牛津大學人類未來研究所(Future of Humanity Institute)的研究人員共同開發了1個學習協議, 防止機器被打斷而變得無法控制. 例如, 在上述範例, 若外面下雨, 機器人的得分將被加權, 使機器人有更大誘因取回外面的箱子. Guerraoui表示, 此解決方案非常簡單, 因為僅需處理1台機器人. 然而, AI越常被用於涉及數十台機器的應用中, 如自駕車或無人機. 該研究共同作者Alexandre Maurer表示, 這會讓事情變得更複雜, 因為機器之間會互相學習, 特別是在被中斷的情況下. 另一名共同研究者Hadrien Hendrikx舉兩台自駕車為例說明, 這兩台車在狹窄的道路上彼此無法讓路. 它們須在不違反交通規則的情況下, 儘快達到目的地, 而車內人員隨時可接手控制. 若首輛自駕車裡的人經常煞車, 第二輛車每次都會適應其行為, 最終會對何時要煞車, 或可能離第一輛車太近或開得太慢感到困惑. EPFL研究人員想透過安全中斷(safe interruptibility)來解決這種複雜情況. 其方法讓人們在必要時中斷AI學習過程, 同時確保中斷行為不會改變AI的學習方式. 該研究的另名作者El Mahdi El Mhamdi表示, 他們為學習演演算法添加遺忘機制, 從本質上刪除AI的部分記憶. 換言之, 研究人員改變AI的學習和獎勵系統, 使其不受中斷影響, 好比父母懲罰1個小孩, 並不會影響家庭其他孩子的學習過程. Maurer表示, 該團隊研究現有演演算法, 並發現無論AI系統有多複雜, 所涉及的機器人數量或中斷類型, 安全中斷法都適用. 並且可將其與終結器(Terminator)一起使用, 仍具相同結果. 目前使用強化學習的自主機器並不常見. El Mhamdi表示, 犯錯的後果很小時, 此系統運作得非常好.

2016 GoodChinaBrand | ICP: 12011751 | China Exports