我们都曾经看过电影里机器控制了世界, 而人类被毁灭的场景. 好在这些电影只是娱乐, 现实生活中, 这些牵强的场景是不会发生的. 然而, 一个更应该注意的实际问题是: 演算法的偏见(algorithmic bias).
所谓的 '演算法偏见' 是指在看似没有恶意的程式设计中, 却带着设计者或开发人员的偏见, 或者所采用的数据是带有偏见的. 结果当然带来了各种问题, 例如, Google搜寻被曲解, 合格的考生无法进入医学院就学, 聊天机器人在推特(Twitter)上散布种族主义和性别歧视资讯等.
演算法偏见造成最棘手的问题之一是, 从事程式设计的工程师, 即便本身没有种族, 性别, 年龄歧视等倾向, 也有可能造成偏见. 人工智能(AI)本质上就是为了自行学习而设计, 有时它的确会出错. 当然, 我们可以在事后进行调整, 但最好的解决办法是, 一开始就防止它发生. 那么, 如何才能让人工智能没有偏见呢?
讽刺的是, 人工智能中最激动人心的可能性之一就是: 一个没有人类偏见的世界. 例如, 当涉及员工招募时, 透过演算法可以让男性和女性在申请同一份工作时获得平等的待遇, 或者在警务工作中避免种族歧视的发生.
不管人们是否意识到, 人类创造的机器, 确实反映了人们如何看待这个世界, 因此, 也会有类似的刻板印象和世界观. 由于人工智能越来越深入于生活中, 我们必须重视这个问题.
人工智能面临的另外一个挑战是, 偏见并不是只有单一形式, 而是存在各种类型的, 其中包括互动偏见, 潜意识偏见, 选择偏见, 数据导向的偏见以及确认偏见.
各种AI偏见类型
'互动偏见' 是指使用者因为自己与演算法的互动方式, 而使演算法产生的偏见. 当机器被设定向周围环境学习时, 它们不能决定要保留或者丢弃哪些数据, 什么是对的或错的. 相反地, 它们只能使用提供给它们的数据——不论是好的, 坏的, 还是丑的, 都只能依据此基础做出判断. 前面提到的微软(Microsoft)聊天机器人Tay便是这类偏见的一个例子, 它因为受到一个网络聊天社群的影响, 开始变得有种族歧视了.
'潜意识偏见' 是指演算法将错误的观念, 与种族和性别等因素连结起来. 例如, 当搜寻一位医生的照片时, 人工智能会先呈现男性医生的图片, 而非女性医师, 反之亦然, 当搜寻护士的时候, 也会发生类似的情况.
'选择偏见' 是指因数据而影响的演算法, 导致过于放大某一族群或群组, 从而使该演算法对其有利, 而代价是牺牲其他群体. 以员工招募为例, 如果人工智能被训练成只辨识男性的履历, 那么女性求职者在申请过程中, 就很难成功.
'数据导向的偏见' 是指用来训练演算法的原始数据已经存在偏见了. 机器就像孩子一样: 他们不会质疑所接收到的数据, 只是单纯地寻找其中的模式. 如果数据一开始就被扭曲, 那么其输出的结果, 也将会反映出这一点.
最后一种是 '确认偏见' , 这和数据导向的偏见类似, 它会偏向那些先入为主的资讯, 这类偏见影响人们如何收集资讯, 以及如何解读资讯. 例如, 如果你觉得在8月份出生的人比其他月份出生的人更有创意, 那么就会倾向于搜寻强化这种想法的数据.
当我们知道有这么多偏见可能渗入人工智能系统的例时, 似乎让人十分忧心. 但重要的是认清事实, 这个世界本身就是有偏见的, 因此, 在某些情况下, 我们对于人工智能所提供的结果并不会感到惊讶. 然而, 不应该如此, 我们需要一个针对人工智能演算法和系统进行测试与验证的流程, 以便在开发期间和布局之前及早发现偏见.
演算法和人类不同的是, 它不会说谎, 因此, 假使结果是有偏见的, 那一定是有原因的, 也就是和演算法得到的数据有关. 人类可以说谎解释不聘雇某人的原因, 但人工智能可不会这样. 而采用演算法, 我们就可能知道什么时候会出现偏见, 并对其进行调整, 以便将来能克服这些问题.
人工智能会学习, 也会犯错. 通常只有在实际使用演算法后, 才能发现所有内在的偏见, 因为这些偏见被放大了. 与其把演算法看成是一种威胁, 不如视其为一个能解决所有偏见问题的好机会, 并在必要的时候加以纠正.
我们可以透过开发系统, 来发现存在偏见的决策, 并及时采取措施. 与人类相比, 人工智能特别适合采用贝叶斯(Bayesian)方法, 来确定某种假设的机率, 并摒除所有可能的人类偏见. 这很复杂, 但是可行的, 尤其是考虑到人工智能的重要性, 而且在未来几年之间, 它只会越来越重要, 这是责无旁贷的事情.
随着人工智能系统的发展, 重要的是必须了解它的运作方式, 才能透过设计让它具有意识, 以及避免将来可能出现的偏见问题. 别忘了, 尽管人工智能发展非常迅速, 但仍处于起步阶段, 还有很多需要学习和改进的地方. 这方面的调整将会持续一段时间, 与此同时, 人工智能会变得更加聪明, 未来将会有越来越多的方法可以克服偏见等问题.
对于科技产业而言, 不断地质疑机器的运作方法及原因, 是相当重要的, 大多数的人工智能都像是黑箱作业, 决策过程都是隐蔽的, 但人工智能的公开及透明度, 则是建立信任和避免误解的关键.
现阶段有很多研究都协助辨识偏见的产生, 如Fraunhofer Heinrich Hertz研究所的研究, 他们着重于辨别不同类型的偏见, 例如前面所提到的偏见, 以及更 '低层级' 的偏见, 还有一些在人工智能训练和发展过程中可能出现的问题.
另一方面, 需要思考的是无监督训练(unsupervised training), 现在, 大多数的人工智能模型都是透过受监督的训练发展而成的, 也就是只收集了人类已标注的数据. 而无监督的训练使用不具任何标签的数据, 演算法必须自行分类, 辨识和汇整数据. 这种方法通常比受监督的学习速度更慢好几个数量级, 但这种方法相对上限制了人为介入, 因此, 能够消除任何有意识或者无意识的人为偏见, 进而避免对数据产生影响.
在基础架构方面也有很多事情项可以改进, 在开发新产品, 网站或者功能时, 科技业者需要各方面的人才, 多元化会为演算法提供各式各样的数据, 但也会在无意间让这些数据带有偏见. 如果有人去分析输出结果的话, 那么发现偏见的可能性将相当高.
此外, 演算法稽核还有其他的作用. 2016年, 美国卡内基梅隆大学(Carnegie Mellon University)的一个研究小组在网络求职广告中发现了演算法偏见, 他们列出了在网络, Google广告上找工作的人员名单后显示, 男性在高收入工作中所占比例是女性的近六倍. 该研究小组的结论是, 如果先进行内部演算法稽核, 将有助于减少这类偏见.
简单来说, 机器的偏见就是人的偏见. 人工智能的偏见有很多种, 但实际上, 它的来源只有一个: 人类.
关键就在于科技公司, 工程师和开发人员等, 应该采取有效的措施, 以避免在无意中产生带有偏见的演算法, 透过演算法稽核并随时保持公开透明, 我们就有信心能让人工智能演算法摆脱偏见.