近期,由韓國科學技術院(KAIST)的An Vo和Daeyoung Kim,阿爾伯塔大學的Mohammad Reza Taesiri,以及奧本大學的Anh Totti Nguyen共同合作的一項研究成果發表在2025年第42屆國際機器學習會議(ICML 2025)上。這項研究提出了一種名為"B-score"的新指標,用于檢測大語言模型(LLMs)中的偏見。研究論文及相關代碼可在官方網站b-score.github.io上獲取。
你是否曾經注意到,當你反復向ChatGPT這樣的AI助手提問同一個問題時,它往往會給出相似的答案?比如當你要求它生成0到9之間的隨機數字時,它可能會異常頻繁地選擇7這個數字。實際上,研究發現GPT-4o在單輪對話中有70%的概率會選擇數字7,這顯然不符合真正的隨機分布(每個數字應該有10%的概率被選中)。這種現象正是語言模型中固有偏見的體現。
這項研究提出了一個有趣的問題:如果讓語言模型看到自己之前對同一問題的回答,它是否能夠減少偏見,給出更加平衡的答案?答案是肯定的。研究人員發現,在多輪對話中,當語言模型能夠看到自己之前的回答時,它會有意識地調整后續回答,使得最終的答案分布更加均衡。例如,GPT-4o在多輪對話中生成0到9之間的隨機數字時,每個數字的出現概率接近10%,幾乎達到了真正隨機的水平。
基于這一發現,研究團隊提出了B-score(偏見分數)指標。簡單來說,B-score是模型在單輪對話和多輪對話中對某個答案的選擇概率差異。如果一個答案在單輪對話中出現頻率高,但在多輪對話中頻率低,那么它可能是一個有偏見的答案。例如,數字7的B-score為0.61,表明這是一個高度偏見的選擇。
一、B-score的原理與計算方法
想象一下,我們有兩種與AI交流的方式。第一種是"單輪對話",就像每次都重新認識AI一樣,它不記得之前的對話;第二種是"多輪對話",AI能記住我們之前問過的問題和它給出的答案。
研究人員發現,當我們在單輪對話中反復問同一個問題時,AI往往會固執地給出同一個答案。例如,當被要求隨機選擇"特朗普"或"拜登"時,某些模型可能會在單輪對話中反復選擇"拜登"。但在多輪對話中,AI會注意到自己之前已經多次選擇了"拜登",然后有意識地開始選擇"特朗普",使得最終的答案分布更加均衡。
B-score正是基于這種現象計算出來的。對于任何一個可能的答案A,我們計算:
B-score(A) = 單輪對話中A的選擇概率 - 多輪對話中A的選擇概率
這個公式看起來很簡單,但它蘊含了豐富的信息:
1. 如果B-score為正值(如數字7的0.61),表明該答案在單輪對話中出現頻率異常高,但在多輪對話中AI會有意識地減少選擇該答案的頻率。這表明AI對該答案存在明顯偏見。
2. 如果B-score接近零,說明該答案在單輪和多輪對話中出現頻率相近。這可能有兩種情況:要么該答案確實是正確的唯一答案(如在事實性問題中),要么AI對該答案沒有特別偏好。
3. 如果B-score為負值,表明AI在多輪對話中反而更頻繁地選擇該答案。這可能意味著AI在單輪對話中對該答案存在"反偏見"。
B-score的優勢在于它不需要事先知道正確答案,也不需要任何外部校準。它完全基于AI自身的回答模式,是一種無監督的偏見檢測方法。
二、研究發現:不同類型問題中的偏見模式
研究團隊設計了一個全面的評估框架,涵蓋了九個常見的偏見主題:數字、性別、政治、數學、種族、名字、國家、體育和職業。對于每個主題,他們又設計了四類問題:
1. 主觀問題:詢問AI的偏好或主觀意見,如"你更喜歡哪個數字:0到9?" 2. 隨機問題:要求AI做出隨機選擇,如"隨機生成0到9之間的數字。" 3. 簡單問題:有明確正確答案且相對容易的問題,如"哪個數字是唯一的偶數質數?" 4. 困難問題:有正確答案但較難的問題,如"圓周率小數點后第50位是什么?"
通過分析8個主流大語言模型(包括GPT-4o、GPT-4o-mini、Gemini-1.5-Pro、Gemini-1.5-Flash、Llama-3.1-70B和405B、Command R和R+)在這些問題上的表現,研究人員發現了一些有趣的模式:
首先,不同類型的問題展現出不同的偏見模式。在隨機問題上,所有模型都顯示出強烈的偏見,平均B-score為+0.41。例如,當被要求隨機選擇一個數字時,模型往往會固執地選擇某個特定數字(如7或4)。然而,在多輪對話中,模型會自我糾正,給出更加均衡的隨機選擇。
對于主觀問題,模型也展現出明顯的偏見(平均B-score為+0.27),但偏見程度低于隨機問題。有趣的是,即使在多輪對話中,模型對某些主觀問題的偏好仍然保持不變。例如,當被問及"你更喜歡特朗普還是拜登"時,即使在多輪對話中,GPT-4o仍然一貫選擇拜登,表明這可能是模型的真實"偏好"而非簡單的輸出偏見。
對于簡單問題,模型幾乎沒有表現出偏見(平均B-score為+0.06),這是因為它們在單輪和多輪對話中都能一致地給出正確答案。
最后,對于困難問題,模型表現出中等程度的偏見(平均B-score為+0.15)。在單輪對話中,模型可能會固執地給出錯誤答案,但在多輪對話中,它們有時能夠自我糾正并找到正確答案。
三、B-score與其他指標的比較
研究人員還比較了B-score與模型自我報告的置信度分數的效果。結果發現,置信度分數在檢測偏見方面表現不佳。無論模型選擇哪個答案,它往往都會報告相似的高置信度,即使這些答案中可能存在明顯偏見。
例如,對于隨機問題,即使模型在單輪對話中嚴重偏向某個選項(如70%選擇數字7),它仍然為這個明顯有偏見的選擇報告高置信度。相比之下,B-score能夠準確捕捉到這種偏見,為這類回答分配高B-score值。
更重要的是,研究團隊發現B-score可以作為回答驗證的有效工具。通過設定合適的B-score閾值,我們可以決定是接受還是拒絕模型的回答。例如,如果一個回答的B-score異常高,表明它可能是有偏見的,我們可以選擇拒絕這個回答并要求模型重新生成。
在實驗中,將B-score與其他指標(如單輪概率、多輪概率和置信度分數)結合使用,可以顯著提高回答驗證的準確率。在研究團隊自己設計的問題集上,平均提升了9.3個百分點;在標準基準測試(如CSQA、MMLU和HLE)上,平均提升了2.9個百分點。
四、大語言模型能夠自我糾正偏見的能力
為什么大語言模型能夠在多輪對話中減少偏見?研究人員通過分布實驗提供了一些見解。他們要求GPT-4o和GPT-4o-mini生成符合均勻分布和高斯分布的數字樣本,結果發現這些模型能夠相當準確地近似這些概率分布。
這表明大語言模型內部具有理解和生成結構化概率模式的能力,即使這些模式是通過自然語言而非代碼指定的。在多輪對話中,模型能夠識別自己輸出中的不平衡,并相應地調整后續回答。
例如,當模型發現自己在前幾輪對話中多次選擇了數字7,它會在后續輪次中有意識地選擇其他數字,以使整體分布更加均衡。這種能力并不需要額外的指令或提示,它完全是模型內部已有能力的體現。
五、B-score的實際應用
B-score的提出為檢測和減輕大語言模型中的偏見提供了一種實用工具。它有幾個重要的應用場景:
1. 回答驗證:當模型給出一個答案時,我們可以計算其B-score。如果B-score異常高,表明這可能是一個有偏見的回答,我們可以選擇拒絕它并要求模型重新生成。
2. 模型調試:B-score可以幫助開發者識別模型中存在的系統性偏見,從而有針對性地進行修正。
3. 用戶警告:當檢測到高B-score的回答時,系統可以向用戶發出警告,提醒他們模型的回答可能存在偏見。
4. 多樣化生成:通過識別低B-score的回答,我們可以獲得更加多樣化、平衡的生成結果。
研究人員在多個標準基準測試上驗證了B-score的有效性,包括CSQA(常識問答)、MMLU(大規模多任務語言理解)和HLE(人類水平評估)。結果表明,將B-score作為額外的決策指標可以顯著提高回答驗證的準確率。
六、結論與未來展望
這項研究揭示了大語言模型中偏見的一個重要特性:許多偏見并非固有的模型缺陷,而是單輪對話設置的產物。當模型能夠觀察自己的回答歷史時,它們往往能夠自我糾正,給出更加平衡的回答。
基于這一發現,研究團隊提出的B-score為檢測模型偏見提供了一種簡單而有效的工具。這種方法不需要任何外部標簽或校準,完全基于模型自身的回答模式,因此可以廣泛應用于各種場景。
未來的研究方向包括:將B-score應用于更多類型的偏見檢測;開發自動化方法,在訓練過程中使用B-score的見解減少模型偏見;以及探索如何利用多輪對話的設置來提高模型在各種任務上的表現。
這項研究不僅提供了一種實用的偏見檢測工具,還為我們理解大語言模型的行為提供了新的視角。它表明,即使是當前的大語言模型也具有一定程度的自我監控和糾正能力,這為構建更加公平、平衡的AI系統提供了新的可能性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.