AI存在偏見和歧視，算法讓用戶喜好趨同？科學家給出了證據

或許你已經注意到了，當你在電影評分網站給剛看完的電影評完分後，網站後續給你推薦的影片風格會與你看完的電影類似。舉個更常見的例子，當你在購物網站搜索過某樣物品後，第二天推薦頁面上顯示的都是類似款。

人工智能可以幫助商家獲得客戶喜好，但同時也在逐漸根據用戶的反饋，形成喜好偏見，讓用戶的需求同化。不僅如此，在人臉識別領域，算法自帶的歧視和偏見導致的問題，已經引發了諸多爭議。

近日，來自多所大學學者的研究結果為上述的偏見和歧視提供了證據。他們的研究論文目前已在預印本網站Arxiv上發布。

算法推薦系統會放大偏見，並讓用戶喜好趨同

推薦系統的本質是一種基於產品內容或用戶行為的信息過濾。如今，我們用的很多應用程序和網站都嵌有算法推薦系統。假如你在某視頻網站給一部電影打了高分，那麽系統就會為你推薦更多同類型的電影。如果你給系統推薦的電影也打了分，系統就會將你的反饋行為添加到系統中，這就是一種反饋循環。

但是推薦算法會受到流行性偏見（popularity bias）的影響。流行性偏見是指，一些流行的項目會被經常推薦，而其他項目會被忽略。在上面的例子中，一些電影被更多的人喜愛，獲得了更高的評分，就屬於流行的項目，或者可以叫做熱門項目，這些項目會被更多推薦給用戶，這就是流行性偏見。

流行性偏見的產生一部分源於訓練數據本身存在不同的流行度，另一部分原因來自推薦算法。隨著時間的推移，這種流行性偏見將會被加強。因為如果用戶在反饋循環中不斷為熱門電影打高分，這些電影就變得更熱門，被推薦的幾率也就更大。

為了研究反饋循環對推薦系統放大偏見和其他方面的影響，來自埃因霍溫科技大學、德保羅大學和科羅拉多大學博爾德分校的研究人員在一個電影數據集上使用三種推薦算法進行了仿真，模擬推薦系統的互動過程。

作為研究數據的MovieLens 1M數據集包含了6040個用戶對3706部電影給出的1000209個評分，分數範圍在1-5之間。研究人員使用的三種推薦算法分別是：基於用戶的協同過濾（UserKNN）、貝葉斯個性化排序（BPR）和一種向所有人推薦最流行產品的算法MostPopular。

通過使用這些數據和算法進行迭代——系統不斷為用戶生成推薦列表，用戶又不斷對推薦列表中的項目進行打分，研究人員發現，隨著時間的推移，三種算法下的數據平均流行度都有所上升，但總體多樣性呈現下降，這也就證明了推薦系統在反饋循環後的偏見被放大。

流行性偏見的放大還改變了系統對用戶興趣的判斷。在所有的推薦算法中，用戶的偏好與其初始偏好之間的偏差隨著時間的推移而增加。也就是說，這將導致推薦系統為用戶做出的推薦越來越偏離用戶的真實喜好，系統推薦給你的電影將不再符合你的口味。

除此之外，由於推薦系統的偏見被放大，用戶幾乎只能接觸到流行度高的項目，只能看到那些被更多人打了高分的熱門電影。於是，在推薦系統中他們的偏好都會向一個共同的範圍集中，這就表現為用戶偏好的同質化。而反饋循環造成的偏見對少數群體用戶的影響更大。

“解決算法偏見的方法變得至關重要。因為如果處理不當，隨著時間的推移，推薦系統中一個很小的偏差也可能會被極度放大。”研究人員在論文結尾處寫道。

人臉識別用於訓練的數據存在巨大偏差

針對人臉識別算法帶來的偏見越來越受到關注。例如，能將模糊照片清晰化的PULSE算法將美國前總統奧巴馬的模糊照片“還原”出了一張白人面孔，在全美BLM運動（Black Lives Matter，黑人的命也是命）如火如荼的背景下，就引發了巨大的爭議。

人臉識別領域裡出現算法偏差和歧視，一個重要原因是用於訓練的數據集存在很大的偏差性。來自劍橋大學和中東科技大學的研究人員就從兩個用於識別人臉表情的數據集中找到了證據。

這兩個數據集分別為：RAF-DB和CelebA。其中，RAF-DB包含來自互聯網的數以萬計的圖片，這些圖片包括面部表情和屬性注釋，而CelebA擁有202599張圖像，包含10177人的40種屬性注釋。

為了確定兩個數據集存在偏差的程度，研究人員對隨機子集進行了采樣，並裁剪了圖像，以使面部在方向上保持一致。然後，他們使用分類器來衡量準確性和公平性。

理論上來說，為了讓算法保持準確和公平，這個分類器應在整個過程中提供不同的人口群體的相似結果。但實際情況並非如此。

在RAF-DB數據庫中，絕大多數的圖片來自年齡在20-39歲之間的白人。從具體的數據來看，這些圖片有77.4％來自白人，15.5％來自亞裔，而只有7.1％來自非洲裔美國人；在性別方面，女性為56.3％，男性為43.7％；在年齡上，超過一半的圖片來自20-39歲的年輕人，3歲以下和70歲以上的人甚至少於10%。

為進一步研究數據庫存在偏見的程度，研究人員分別使用了三種算法對數據庫的準確性和公平性進行評估。結果發現，在準確性方面，RAF-DB數據庫對少數族裔的識別準確性低於白人；在公平性方面，性別屬性相對更公平，為97.3%，種族和年齡的公平性相對較低，為88.1%和77.7%。

而在CelebA數據庫的圖片來源中，女性比例為61.4%，而男性只有38.6%。在年齡上，年輕人佔75.7%，明顯超過了佔比24.3%的老年人。

在準確性方面，CelebA數據庫對年輕女性的準確率為93.7％，但對老年男性的準確性較低，為90.7%。而該數據庫在性別和年齡方面的公平性表現都較好，分別為98.2%和98.1%。

許多公司曾用人臉識別軟體給面試者的情緒打分，如果整個系統都是有偏見的，對於面試者來說就意味著不公平。面部表情數據集中偏見的存也凸顯了監管的必要性。如何用法律防止技術濫用，成為未來這一領域裡值得思考的問題之一。