我們都曾經看過電影裡機器控制了世界, 而人類被毀滅的場景. 好在這些電影只是娛樂, 現實生活中, 這些牽強的場景是不會發生的. 然而, 一個更應該注意的實際問題是: 演演算法的偏見(algorithmic bias).
所謂的 '演演算法偏見' 是指在看似沒有惡意的程式設計中, 卻帶著設計者或開發人員的偏見, 或者所採用的數據是帶有偏見的. 結果當然帶來了各種問題, 例如, Google搜尋被曲解, 合格的考生無法進入醫學院就學, 聊天機器人在推特(Twitter)上散布種族主義和性別歧視資訊等.
演演算法偏見造成最棘手的問題之一是, 從事程式設計的工程師, 即便本身沒有種族, 性別, 年齡歧視等傾向, 也有可能造成偏見. 人工智慧(AI)本質上就是為了自行學習而設計, 有時它的確會出錯. 當然, 我們可以在事後進行調整, 但最好的解決辦法是, 一開始就防止它發生. 那麼, 如何才能讓人工智慧沒有偏見呢?
諷刺的是, 人工智慧中最激動人心的可能性之一就是: 一個沒有人類偏見的世界. 例如, 當涉及員工招募時, 透過演演算法可以讓男性和女性在申請同一份工作時獲得平等的待遇, 或者在警務工作中避免種族歧視的發生.
不管人們是否意識到, 人類創造的機器, 確實反映了人們如何看待這個世界, 因此, 也會有類似的刻板印象和世界觀. 由於人工智慧越來越深入於生活中, 我們必須重視這個問題.
人工智慧面臨的另外一個挑戰是, 偏見並不是只有單一形式, 而是存在各種類型的, 其中包括互動偏見, 潛意識偏見, 選擇偏見, 數據導向的偏見以及確認偏見.
各種AI偏見類型
'互動偏見' 是指使用者因為自己與演演算法的互動方式, 而使演演算法產生的偏見. 當機器被設定向周圍環境學習時, 它們不能決定要保留或者丟棄哪些數據, 什麼是對的或錯的. 相反地, 它們只能使用提供給它們的數據——不論是好的, 壞的, 還是醜的, 都只能依據此基礎做出判斷. 前面提到的微軟(Microsoft)聊天機器人Tay便是這類偏見的一個例子, 它因為受到一個網路聊天社群的影響, 開始變得有種族歧視了.
'潛意識偏見' 是指演演算法將錯誤的觀念, 與種族和性別等因素連結起來. 例如, 當搜尋一位醫生的照片時, 人工智慧會先呈現男性醫生的圖片, 而非女性醫師, 反之亦然, 當搜尋護士的時候, 也會發生類似的情況.
'選擇偏見' 是指因數據而影響的演演算法, 導致過於放大某一族群或群組, 從而使該演演算法對其有利, 而代價是犧牲其他群體. 以員工招募為例, 如果人工智慧被訓練成只辨識男性的履曆, 那麼女性求職者在申請過程中, 就很難成功.
'數據導向的偏見' 是指用來訓練演演算法的原始數據已經存在偏見了. 機器就像孩子一樣: 他們不會質疑所接收到的數據, 只是單純地尋找其中的模式. 如果數據一開始就被扭曲, 那麼其輸出的結果, 也將會反映出這一點.
最後一種是 '確認偏見' , 這和數據導向的偏見類似, 它會偏向那些先入為主的資訊, 這類偏見影響人們如何收集資訊, 以及如何解讀資訊. 例如, 如果你覺得在8月份出生的人比其他月份出生的人更有創意, 那麼就會傾向於搜尋強化這種想法的數據.
當我們知道有這麼多偏見可能滲入人工智慧系統的例時, 似乎讓人十分憂心. 但重要的是認清事實, 這個世界本身就是有偏見的, 因此, 在某些情況下, 我們對於人工智慧所提供的結果並不會感到驚訝. 然而, 不應該如此, 我們需要一個針對人工智慧演演算法和系統進行測試與驗證的流程, 以便在開發期間和布局之前及早發現偏見.
演演算法和人類不同的是, 它不會說謊, 因此, 假使結果是有偏見的, 那一定是有原因的, 也就是和演演算法得到的數據有關. 人類可以說謊解釋不聘僱某人的原因, 但人工智慧可不會這樣. 而採用演演算法, 我們就可能知道什麼時候會出現偏見, 並對其進行調整, 以便將來能克服這些問題.
人工智慧會學習, 也會犯錯. 通常只有在實際使用演演算法後, 才能發現所有內在的偏見, 因為這些偏見被放大了. 與其把演演算法看成是一種威脅, 不如視其為一個能解決所有偏見問題的好機會, 並在必要的時候加以糾正.
我們可以透過開發系統, 來發現存在偏見的決策, 並及時採取措施. 與人類相比, 人工智慧特別適合採用貝葉斯(Bayesian)方法, 來確定某種假設的機率, 並摒除所有可能的人類偏見. 這很複雜, 但是可行的, 尤其是考慮到人工智慧的重要性, 而且在未來幾年之間, 它只會越來越重要, 這是責無旁貸的事情.
隨著人工智慧系統的發展, 重要的是必須了解它的運作方式, 才能透過設計讓它具有意識, 以及避免將來可能出現的偏見問題. 別忘了, 儘管人工智慧發展非常迅速, 但仍處於起步階段, 還有很多需要學習和改進的地方. 這方面的調整將會持續一段時間, 與此同時, 人工智慧會變得更加聰明, 未來將會有越來越多的方法可以克服偏見等問題.
對於科技產業而言, 不斷地質疑機器的運作方法及原因, 是相當重要的, 大多數的人工智慧都像是黑箱作業, 決策過程都是隱蔽的, 但人工智慧的公開及透明度, 則是建立信任和避免誤解的關鍵.
現階段有很多研究都協助辨識偏見的產生, 如Fraunhofer Heinrich Hertz研究所的研究, 他們著重於辨別不同類型的偏見, 例如前面所提到的偏見, 以及更 '低層級' 的偏見, 還有一些在人工智慧訓練和發展過程中可能出現的問題.
另一方面, 需要思考的是無監督訓練(unsupervised training), 現在, 大多數的人工智慧模型都是透過受監督的訓練發展而成的, 也就是只收集了人類已標註的數據. 而無監督的訓練使用不具任何標籤的數據, 演演算法必須自行分類, 辨識和彙整數據. 這種方法通常比受監督的學習速度更慢好幾個數量級, 但這種方法相對上限制了人為介入, 因此, 能夠消除任何有意識或者無意識的人為偏見, 進而避免對數據產生影響.
在基礎架構方面也有很多事情項可以改進, 在開發新產品, 網站或者功能時, 科技業者需要各方面的人才, 多元化會為演演算法提供各式各樣的數據, 但也會在無意間讓這些數據帶有偏見. 如果有人去分析輸出結果的話, 那麼發現偏見的可能性將相當高.
此外, 演演算法稽核還有其他的作用. 2016年, 美國卡內基梅隆大學(Carnegie Mellon University)的一個研究小組在網路求職廣告中發現了演演算法偏見, 他們列出了在網路, Google廣告上找工作的人員名單後顯示, 男性在高收入工作中所佔比例是女性的近六倍. 該研究小組的結論是, 如果先進行內部演演算法稽核, 將有助於減少這類偏見.
簡單來說, 機器的偏見就是人的偏見. 人工智慧的偏見有很多種, 但實際上, 它的來源只有一個: 人類.
關鍵就在於科技公司, 工程師和開發人員等, 應該採取有效的措施, 以避免在無意中產生帶有偏見的演演算法, 透過演演算法稽核並隨時保持公開透明, 我們就有信心能讓人工智慧演演算法擺脫偏見.