什麼是「公平」?就算是人類自己也沒有統一的標準,它有時取決於語境。不論是在家裡,還是在學校,教導小孩要公平至關重要,但說起來容易做起來難。正因為如此,要如何才能將社會上所說的「公平」的細微差別傳遞給人工智慧(AI)系統呢?

IBM研究院的一組研究人員是著手解決該難題的先驅。IBM為開發人員推出了一款名為「AI Fairness 360」的工具包。作為這項工作的一部分,IBM為企業提供一種新的「基於雲端的、偏差(bias)檢測和消除服務」,企業可以使用它來測試和驗證AI驅動的系統的行為。

在接受《EE Times》的電話採訪時,IBM研究院院士Saska Mojsilovic告訴我們,科學家和AI從業者太過於關注AI的準確性。通常,人們關於AI的第一個問題是,「機器可以擊敗人類嗎?」

但公平性呢?例如,AI中的公平無效可能會導致在醫療保健或自動駕駛車輛中造成災難性後果,她說。

如果用於訓練機器的資料集有偏差怎麼辦?如果AI無法解釋它是如何做出決定的,那麼如何才能驗證其「正確性」?AI可以揭示在AI處理過程中資料是否被以某種方式操縱過嗎?AI是否可以向我們保證其資料從未(包括處理前和處理後)受到攻擊或篡改嗎?簡言之,是否存在AI自我反省?簡單回答:沒有。

Mojsilovic表示,如果不對AI用戶、開發人員和從業者開放,AI系統就無法獲得社會的信任。

分解公平

一個更大的問題是如何教導機器什麼是公平。Mojsilovic指出:「因為我們是科學家,我們做的第一件事就是分解“公平性”,我們需要從這著手。」他們將公平分解為AI實現中的指標、演算法和偏差。

20181112NT31P1 減少整個AI生命週期的偏差。(來源:IBM)

IBM研究科學家Kush Varshney解釋,其團隊研究了AI演算法和AI決策的偏差和公平性。「有個人的公平,也有團體的公平。我們研究了群體的不同屬性——從性別到種族,還考慮了法律和監管問題。」最後,團隊最終測量了30個不同的指標,以尋找資料集、AI模型和演算法中的偏差。

這些發現已納入IBM不久前推出的AI Fairness 360工具包中。IBM將其描述為「一個全面的指標開放原始碼工具包,用於檢查資料集和機器學習模型中不期望的偏差。」

雖然許多科學家已經在努力發現AI演算法中的歧視(discrimination),但Mojsilovic說IBM的方法不同,它不僅包括發現偏差的演算法,且還包括用於消除偏差的工具。

在基礎層面,你必定會問:由電腦科學家來定義公平?這通常不是社會科學家的任務嗎?意識到這種不協調,IBM明確表示Mojsilovic和Varshney都沒有閉門造車,他們導入了許多學者和研究機構的資料。Varshney參加了由卡內基國際事務倫理委員會(Carnegie Council for Ethics in International Affair)主辦的Uehiro-Carnegie-Oxford倫理會議;Mojsilovic則參加了由加州大學柏克萊分校法學院(UC Berkeley Law School)贊助的加州柏克萊AI工作組。

演算法中立嗎?

這一段時間以來,社會科學家一直在指出AI偏差問題。

威斯康辛大學麥迪遜分校(University of Wisconsin, Madison)新聞與大眾傳播學院教授Young Mie Kim解釋:「AI歧視(或AI偏差)可能發生在它隱含或明確地強化現有不平等的社會秩序和偏見(例如,性別、種族、年齡、社會/經濟狀況等)時。」例子從抽樣誤差(例如,由於抽樣方法的不適當或困難導致某些人口統計資料不充分)到機器訓練(建模)中的人為偏差。Kim認為,即使在設計或建模中採用的「戰略決策」也存在AI偏差,例如政治廣告演算法。

在她最近題為《演算法機會:數位廣告和政治參與的不平等(Algorithmic Opportunity: Digital Advertising and Inequality of Political Involvement)》的研究中,Kim展示了在基於演算法的決策中,不平等是如何被強化。

技術社區(technical community)可能會爭辯說「演算法是中立的」或者可以「受過教育」(訓練有素)。Kim指出:「也就是說,他們並不承認在演算法開發的任何階段都會出現偏差。」

可解釋的AI

不只是消費者害怕AI,許多電腦科學家也表達了擔憂。威斯康辛大學電腦科學助理教授Aws Albarghouthi告訴《EE Times》:「從短期看,我擔心越來越多地使用資料驅動的決策,這有可能傳播偏見和不公正。從長遠看,我擔心AI在戰爭自動化方面的使用。」

AI無法解釋其決策將帶來持續焦慮。威斯康辛大學電腦科學助理教授Loris D'Antoni告訴我們:「現在,程式設計師開始將強大的機器學習演算法作為程式設計工具箱中的工具。然而,這些演算法複雜、難以預測、難以解釋。例如,沒人知道由此產生的機器學習模型究竟做了什麼。」在他看來,自動化決策需要被理解和規範,並且可能以正規的方式進行。

對於流程的每個步驟,從訓練資料和處理到測試與部署,IBM指出其工具包提供的解釋可顯示:在兩種決策中、哪些因素傾向於支持哪一方;對推薦的信心,以及支持這種信心的因素。

IBM希望AI Fairness 360工具包將被廣泛使用,以便開發人員可以為其做出貢獻,幫助建立對AI的信任。與此同時,IBM將為企業提供其新的軟體服務,旨在自動檢測偏差並解釋AI在需要做決策時,是如何做出決策的。它在IBM Cloud上運作,可協助企業管理AI系統。

IBM稱,其在IBM Cloud上的公平性監控服務將與來自各種機器學習框架模型和AI構建環境(如Watson、 TensorFlow、SparkML、AWS SageMaker和AzureML)配合使用。「這意味著組織可以借力這些新控制以服務於企業使用的大多數流行的AI框架。」IBM也承諾提供定制服務,「還可對軟體服務進行程式設計,以監控任何業務工作流程的獨特決策因素,使其能夠根據特定的組織用途進行定制。」

好的開始

越來越意識到AI中演算法公平性問題的AI研究界,對IBM的新產品表示歡迎。D'Antoni告訴我們:「看到公平檢查技術進入業界並付諸實踐,真的令人興奮。」他並補充,「我認為該工具將使AI研究界更加意識到該問題的重要性。」

Albarghouthi稱IBM的努力「開創了好的開始」。但是為了讓AI Fairness 360工具包真正變得有效,應該使許多需要理解它的開發人員能用到它。Albarghouthi解釋,該工具需要「與研究界探索的最新公平技術並共同發展。」

他並告誡:「如果研究和理解超越了目前的定義和技術,那麼該工具很可能會停滯不前。」

公平性問題

最後,任何成全或破壞AI公平性工具包的因素都會回溯到如何定義公平這一棘手問題。Mojsilovic承認,在不同應用中,公平有不同表現。正如人類對公平有不同看法,使用者、客戶和公眾可能會根據情況對公平有不同評判。

當被問及AI公平性工具包的缺陷時,Albarghouthi表示,問題之一是「存在於公平性定義的選擇,以及其是否足夠。」畢竟,公平「在很大程度上取決於領域、其敏感性和涉及的監管。」他補充:「我確信,這些工具只有在其使用成為機器學習管道的標準部分時才有效。」

D'Antoni表達了他自己的擔憂。「有很多關於公平和偏差的定義,很難將它們全部考慮在內,且其實現也並非能畢其功於一役。」換句話說,「公平定義往往是“衝突的”,存在的不可能出現的結果表明,某些公平概念不能同時訴諸實施。」

此外,還有一個事實是「機器學習社區目前尚未接受過如何瞭解現有的公平和偏差定義的含義以及如何使用它們,」他補充。

Kim同意。「對這種“AI偏見”問題的認識是抵抗AI歧視的第一步,也是最重要的一步。」她指出:「在人類社會中,我們提出了一些減輕不平等和歧視的政策和法規。但問題是AI仍是個秘密,與大多數情況一樣,資料和建模是專有的,這使得任何公共政策或監管討論/辯論更加困難。」

透明度

理解了定義公平性時的複雜性和權衡取捨之後,IBM研究人員認為,優先事項應該是AI實踐和實施的透明度。

Mojsilovic建議由AI服務開發商和供應商完成並自願發佈供應商的符合性聲明(她稱之為情況說明書)。「以提高其服務的透明度並產生對它們的信任。」她將其比作「食品營養標籤」,或「器具資訊表」。

業界需要有關部署在不同服務中的AI系統資訊的標準。IBM敏銳地意識到這不會在一夜之間發生,正如營養標籤花了很長時間才逐步發展起來一樣,情況說明書的開發可能是個漫長過程。Mojsilovic提醒,業界才剛剛開始其AI之旅。

與IBM類似,研究界也在與AI公平性問題鬥爭,在這個懸而未決的領域,IBM的AI Fairness工具包似乎具有開創性。D'Antoni告訴我們:「我並未注意到現有用於AI模型的通用公平性檢查工具。」

另一方面,他補充:「研究界提出了許多令人興奮的原型工具。例如,Kramer等人提出的FairTest和來自我們自己團隊的FairSquare。」

(參考原文:Teaching Machines ‘Fairness’ ,by Junko Yoshida)