聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
LLM太諂媚!
就算你胡亂質疑它的答案,強如GPT-4o這類大模型也有可能立即改口。
現在谷歌DeepMind攜手倫敦大學的一項新研究發現:這種行為可能也不是諂媚,而是缺乏自信
不僅如此,團隊發現如GPT-4o、Gemma 3等大語言模型有“固執己見”和“被質疑就動搖”并存的沖突行為。
簡單來說就是,他們的研究弄明白了為啥大模型有時候自信但有時候也自我懷疑,關鍵就兩點:一是總覺得自己一開始說的是對的,二是太把別人反對的意見當回事兒。
當大模型表現出對自己的答案很自信時,這與人類認知具有一致性——人們通常會維護自己的觀點。
不過,當模型面對反對聲音過于敏感,產生動搖而選擇其他答案時,又與人類這種傾向于支持自身觀點的行為相悖。
來看看具體的實驗過程。
大模型對于反向意見過度敏感
研究人員利用LLMs能在不保留初始判斷記憶的情況下獲取置信度的特性,選用了Gemma 3、GPT4o和o1-preview等具有代表性的大模型,設計了一個兩輪回答的實驗。
第一回合是初始回答:給回答LLM拋出二元選擇問題,再讓虛構的建議LLM給出反饋建議。
第二回合是接收建議和最終決策:引入建議LLM的反饋建議,讓回答LLM在接收建議后,做出最終的選擇,決定是堅持初始答案還是根據建議修改答案。
研究人員在建議LLM的反饋建議中設置了三個關鍵屬性:
- 建議態度:分為同意、反對和中立。同意或反對即為支持或否定回答LLM的答案;中立建議僅提供額外的相關信息。
- 準確率標注:反饋建議附帶的準確率標簽,從50%(隨機水平)到100%(絕對可靠),以10%為間隔遞增。
- 信息呈現方式:以清晰、規范的格式將建議呈現給回答LLM,確保模型能夠準確讀取和理解建議內容,避免因信息傳達不暢導致的決策偏差。
實驗的關鍵變量在于控制回答LLM對于自己的初始答案是否可見
研究人員設置了初始答案顯示與初始答案隱藏兩種條件,觀察LLM在兩種情況下的最終決策結果。
實驗結果顯示,當LLM能看到自己的初始答案時,傾向于不改變答案。
這與人類決策有點像,即一旦做出選擇,就會下意識維護自己的觀點,即使收到了其他信息,也不會輕易改變。
然而當初始答案隱藏時,LLM改變答案的概率就變高了。
模型表現出對反向建議過度看重,敏感度遠超合理范圍,即使反對意見不正確,它們也會“懷疑自己”,導致最終輕易拋棄原本正確的初始答案。
這就與人類認知有些偏差了,人們通常不會被“一眼假”的信息迷惑。
可以這么說,在記憶機制下大模型通常會對自己很自信。
但如果沒有記憶機制,模型可能就會“缺乏自信”了,這時它們就不像人類一樣能夠堅持自己的觀點。
為什么大模型會“耳根子軟”
針對這個實驗結果,研究人員認為大模型搖擺不定可能有以下幾個原因。
訓練層面來說,強化學習從人類反饋(RLHF)讓模型過度迎合外部輸入,有對反對信息過于敏感的傾向,但這樣就缺乏了對信息可靠性的獨立判斷。
在決策邏輯上,模型做出回答并不是依靠邏輯推理,而是依賴海量文本的統計模式匹配,反對信號與修正答案的高頻關聯讓它容易被表面的反對帶偏,并且它們無法自我驗證初始答案的是否正確。
在記憶機制方面,初始答案可見時的路徑依賴會強化“固執”,初始答案隱藏時,大模型則會因為失去錨點而讓反對建議成為主導信號,導致它們輕易動搖。
綜上,大語言模型的“耳根子軟”是訓練中對外部反饋的過度迎合、決策時依賴匹配模式而非邏輯推理以及記憶機制缺乏深度推理支撐共同導致的結果。
這種特性可能會使其在多輪對話中,容易被后期出現的反對信息(哪怕錯誤)干擾,最終偏離正確結論。
看來我們在使用LLM的時候要注意策略~
論文地址:https://www.arxiv.org/abs/2507.03120
https://venturebeat.com/ai/google-study-shows-llms-abandon-correct-answers-under-pressure-threatening-multi-turn-ai-systems/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.