AI演算法偏見如何修正?3種檢測方法與資料平衡技術說明

Published on: | Last updated:

叫 AI 畫個科學家…結果,嗯,跳出一堆男的。好像也不太意外,社會大概就是這樣想的。

但這種「偏見」如果用在更嚴肅的地方,事情就大條了。

之前美國有個演算法,用來預測犯人再犯的機率高不高,法院會拿這個去參考,決定要不要給保釋、判多久。結果發現,它對黑人有很明顯的偏見。如果訓練 AI 的資料本身就是歪的,那 AI 學到的東西,怎麼可能正呢?

...還是說,有辦法?

重點一句話:在搞定 AI 偏見之前,我們得先搞定自己

說真的,問題可能不在技術本身。而是我們人類社會,對於「什麼才叫公平」,根本沒有一個統一的答案。如果連我們都搞不清楚,又要 AI 怎麼去「學習」一個不存在的標準?

那...我們手動「喬」一下資料不行嗎?

最直覺的想法,大概就是這樣吧。如果輸入的資料有偏見,那我們就反過來操作,把它「校正」回來再餵給 AI 啊。

例如,網路上居禮夫人、吳健雄這些女性科學家的資料明明也很多。如果我們把這些資料的「權重」調高,讓 AI 多看幾次,是不是就能平衡掉那個「科學家=男性」的印象?

理論上好像可以。但...馬上就遇到一個更麻煩的問題:權重要調多高?居禮夫人的照片要重複給 AI 看幾次才算「公平」?

有人可能會說,簡單算一下嘛,我們希望 AI 產出的科學家圖片是男女各半,50/50,那就用這個目標去反推要加多少權重。聽起來很合理,對吧?但事情沒這麼單純。

一個由數位光碼構成的失衡天秤,象徵演算法中難以察覺的偏見。
一個由數位光碼構成的失衡天秤,象徵演算法中難以察覺的偏見。

因為,光是「公平」就有好幾種版本

馬上就有人會跳出來說,不對。為什麼是 50%?

如果 AI 畫的是生物學教授,那男女各半可能差不多。但如果是物理學教授呢?現實世界裡,物理領域的女性佔比可能還不到兩成。那 AI 產出的圖片,到底該反映「現實狀況」,還是該追求一個「理想中的平等」?

你看,光是一個畫圖問題,就有兩種聽起來都很有道理、但結論完全不同的「公平」。這就是整件事最棘手的地方。

這個矛盾,在當年 ProPublica 揭露的一個案子裡,整個炸開來。

案例:美國的 COMPAS 系統,一個無法兩全其美的數學難題

COMPAS 是一個在美國司法系統裡實際被使用的評分工具。它會根據被告的資料,給出一個 1-10 分的「再犯風險」分數,分數越高,代表 AI 覺得這個人再犯的機率越大。

當時就出現了兩種對「公平」的定義,而且都看似合理:

  1. 預測準確性: 不論你是黑人或白人,只要 COMPAS 給你的分數一樣(比如都是 7 分),那麼你們未來實際再犯的機率,也應該要一樣。
  2. 錯誤對等性: 在那些後來「沒有再犯」的人當中,AI 錯誤地將他們標記為「高風險」的比例,在黑人與白人之間應該要相等。

你可能會覺得,這兩個目標聽起來都很好啊,那就兩個都滿足不就好了?

但數學上,這是不可能的。只要兩個群體在現實中的平均再犯率存在差異(這是一個客觀存在的統計數字),那上述兩種「公平」就絕對無法同時達成。你只能選一個。

這真的...很讓人頭痛。我把它整理成一個表,可能會比較清楚。

兩種「公平」定義的比較與兩難
公平的定義 聽起來像... 實際上的問題
定義一:預測準確率 (Predictive Parity) 很科學啊。AI 說你 7 分,你再犯機率就該是 X%,跟你膚色無關。 結果可能是... 為了讓高再犯率群體的預測準,AI 會給更多該群體的人高分,導致很多「其實不會再犯」的人也被標為高風險。
定義二:錯誤對等性 (Error Rate Balance) 這個比較有人性吧?不能因為你是某個族群,就比較容易被 AI 冤枉。 但如果要讓兩邊的「冤枉率」一樣,那 AI 給出的分數,可能就沒辦法準確反映真實的再犯機率了。7 分可能不再代表同一個風險值。

這種「公平」的定義之爭,在美國吵得不可開交。但老實說,這在台灣也不陌生,只是場景換了而已。好比說,每年大學申請的「多元入學」制度,到底「多元」的佔比和定義該是什麼?應該反映社會現況,還是追求一個更理想的結構?這沒有標準答案。

一群背景多元的資料科學家,正在審視充滿數據的螢幕,氣氛有些凝重。
一群背景多元的資料科學家,正在審視充滿數據的螢幕,氣氛有些凝重。

所以...放棄演算法,回去靠人?

既然演算法這麼麻煩,那乾脆不要用了,回到過去,全部交給人類來判斷?

嗯... 你請一個人類畫家來畫科學家,他很可能也是畫一個男的。你請一個人類法官來判案,他難道就沒有偏見嗎?

哈佛大學有個很有名的「內隱聯結測驗」(Implicit Association Test),它專門測量人們潛意識裡的偏見。結果顯示,幾乎每個人都有某種程度的隱性偏見,法官也不例外,他們的測驗分數跟一般人差不多。

我自己是覺得... 好像寧願面對一個有偏見的人類法官,而不是一個有偏見的演算法。但如果把那個法官大腦裡的所有偏見都攤開來看,我還會這麼想嗎?我不知道。

法官的偏見,我們看不見,只能靠制度、訓練去約束。但演算法的偏見,是血淋淋的數字,可以被精確地寫下來,讓你盯著那些數字,無處可逃。

法官的木槌與發光的演算法圖標並列,呈現一個艱難的選擇。
法官的木槌與發光的演算法圖標並列,呈現一個艱難的選擇。

所以,然後呢?

所以問題好像不是科技讓事情變得更糟。

而是科技,把我們社會中那些原本就存在、但我們假裝沒看到的偏見,赤裸裸地量化了,變成一張你無法否認的報表。

這件事本身... 說真的,我也不知道是好是壞。

它強迫我們去面對一個最根本的問題:在要求 AI 變得「公平」之前,我們整個社會,能不能先坐下來,好好聊一聊,我們到底想要一個什麼樣的「公平」?

這或許才是比寫程式更難解的題目。


如果今天非得選一個,你寧願把你的未來,交給一個「規則透明但有已知偏見」的 AI,還是一個「你永遠看不透內心偏見」的人類來決定?

這問題很難,但蠻值得想一想的。可以在底下留言分享你的看法。

Related to this topic:

Comments

  1. profile
    Guest 2025-06-13 Reply
    咦,這些AI偏見的問題聽起來好複雜喔!請問你們怎麼確定這些研究不會又淪為另一種新的偏見呢?感覺研究者本身可能也會無意識地帶入自己的觀點吧?
  2. profile
    Guest 2025-05-06 Reply
    我想問一下,對於AI算法的偏見問題,我們真的能找到一個有效的解決方案嗎?而且,公平的定義這麼難達成共識,是不是會影響我們對公正判決的期待呢?