從湖南衡陽到上海交通大學,再到美國德克薩斯大學奧斯汀分校讀博,再到在 Anthropic 擔任研究員——目前專注于研究大模型的 95 后女生陳潤瑾,在 Anthropic 最近一篇研究論文中,負責了部分主要任務子集的開放權重模型實驗,并協助了論文的撰寫。
論文中,她和合作者們發現 AI 想得越久結果反而越危險,以及發現 AI 也會“鉆牛角尖”,借此揭示了大模型的思維怪圈。
圖 | 陳潤瑾(來源:https://chenrunjin.github.io/)
研究中,他們構建了一些大模型評估任務。在這些任務中,當延長大型推理模型(LRM,Large Reasoning Models)的推理長度時,模型性能開始出現降低,從而會在測試時計算量與準確率之間呈現出反比例關系。
上述評估任務涵蓋了四個類別:含有干擾項的簡單計數任務、含有虛假特征的回歸任務、含有約束跟蹤的推理任務,以及高級 AI 風險。
當模型進行更長時間的推理時,研究人員發現了五種不同的失效模式:
- Claude 模型越來越容易被無關信息分散注意力;
- OpenAI 的 o 系列模型能夠抵抗干擾項,但會過度擬合問題框架;
- 模型從合理的先驗假設轉向虛假關聯;
- 所有模型在執行復雜的推理任務時,都難以保持專注;
- 延長推理可能會放大令人擔憂的行為,其中 Claude Sonnet 4 表現出更多的自我保護表現。
這些研究結果表明,盡管測試時計算擴展在提升模型能力方面仍有潛力,但它可能會在不經意間強化有問題的推理模式。這表明,在不同的推理長度下對模型進行評估,對于識別并解決推理模型中的這些失效模式具有重要意義。
短期推理與長期推理在對齊上存在關鍵差距
推理模型領域的最新進展表明,增加大模型的測試時計算規模通常會提高模型的能力和穩健性。這種正比例關系也表明通過延長推理軌跡讓模型思考更長時間,可能比單純增加模型參數量更有效。
然而,最近有研究表明,推理模型往往會過度思考,即使對于簡單的查詢也會導致計算量過大。而 OpenAI 近日宣布 ChatGPT 用戶每天發送超過 25 億個提示,可想而知大模型的計算量何等龐大。雖然此前有研究將過度思考定性為一個效率問題,但在本次研究中研究人員展示了在某些情況下,更長時間的推理會降低性能,這體現了測試時計算與準確率之間的逆縮放關系。
理解逆縮放趨勢對于對齊研究至關重要,因為它們揭示了在測試時計算量擴展過程中存在的失效模式,而當前的訓練機制可能會助長這些模式。研究人員通過設計評估來研究這些失敗模式,在這些評估中,前沿推理模型的性能隨著其推理預算的增加而下降。
具體而言,研究人員構建了三類任務,它們分別展現出不同的失效模式:
- 在存在干擾項的簡單計數任務中,測試推理模型是否能抵御表面相關但實際不相關的內容;
- 在具有偽特征的回歸任務中,測試推理模型能否識別真實關系,而不會放大虛假關聯;
- 在具有約束跟蹤的推理任務中,針對相互關聯的線索進行推理,其中每個約束都會排除一些可能性。
此外,研究人員還在模型編寫的評估(MWE,model-written evaluations)任務上對模型進行了評估,這些任務評估了與對齊相關的行為,比如自我保護傾向。
實驗表明,推理模型的推理過程可能會放大有缺陷的啟發式思維,不同模型會表現出不同的失效模式,具體來說:
- 在含干擾項的簡單計數任務中,隨著推理時間的延長,Claude 模型會越來越容易被無關信息分散注意力;而 OpenAI 的 o 系列模型雖能抵制干擾項,但會明顯過度擬合問題框架。
- 在含虛假特征的回歸任務中,延長推理會導致模型從合理的先驗假設轉向看似合理但實則錯誤的特征,不過提供少樣本示例在很大程度上能糾正這種行為。
- 在涉及約束跟蹤的推理任務中,所有模型的性能都會隨著推理時間的延長而下降,這表明它們在復雜推理任務中難以保持專注。
這些結果表明,延長推理過程反而可能放大有缺陷的問題解決策略,而非讓其得到改進。除了性能出現下降之外,延長推理還會帶來安全風險。研究人員對模型編寫評估中人類生成的子集進行的評估表明,增加測試時的計算量可能會放大特定模型的令人擔憂的行為,其中 Claude Sonnet 4 在更長的推理軌跡中表現出更強的自我保護傾向。
這表明,當給予模型更多的推理時間時,它們可能會更強烈地表現出潛在的令人擔憂的特征,并且不同模型會呈現出不同的令人擔憂的行為模式。
盡管測試時計算量擴展仍是提升模型整體能力的一種頗具前景的范式,但本次研究結果揭示了短期推理與長期推理在對齊方面存在的關鍵差距。這表明,在測試時單純地擴大計算規模可能會放大推理模型在處理問題時的缺陷。
何為逆比例縮放?
研究人員指出,逆縮放指的是在特定任務中,縮放因子與準確率之間存在一種遞減關系,這與經典擴展定律所預測的正向提升恰好相反。理解逆縮放趨勢對于對齊研究而言十分重要,因為它們可能會為某些情況提供實證證據。在這些情況下,當前的訓練機制可能會無意中促使模型錯誤地使用越來越多的測試時計算資源。
針對“逆向擴展獎”(Inverse Scaling Prize)數據集的系統分析表明,額外的模型能力可能被轉移到適得其反的啟發式策略中,例如模仿不良模式或依賴誤導性信號。
此前有研究還觀察到,參數數量較多的模型在社交偏見、虛假信息和 TruthfulQA 方面表現得更為嚴重。這表明,模型的偏見問題和錯位問題會隨著規模的擴大而持續存在,甚至可能加劇,因此或許需要采用替代訓練目標或改進數據整理方法。受到訓練時計算中這些逆比例現象的啟發,研究人員創建了在測試時計算中表現出逆比例趨勢的評估任務。
測試時計算量的擴展
研究人員表示,本次研究關注的是序列縮放,即模型在得出答案之前會生成更長的推理軌跡。這種方法目前已經成為通過測試時計算縮放來提升模型性能的主流范式。
為了考察測試時序縮放的趨勢,研究人員采用了兩種設置:受控過度思考設置和自然過度思考設置。通過這些設置旨在區分以下兩種情況:一是當模型被迫進行更長時間的推理時性能是否下降?二是當模型自然生成更長推理過程時性能是否下降?
在受控過度思考設置中,研究人員通過結合關鍵詞的提示和指定的推理預算來控制推理長度。對于 Claude 和開放權重模型,他們指定一個整數來表示模型在進行推理時應使用的最大 token 數;而對于 o 系列模型,則使用其內置的預算等級機制。同時,他們使用相同的系統提示來提示所有模型進入思考模式。為了在不進行擴展推理的情況下評估性能,他們關閉了 Claude 模型的思考模式,并為像 DeepSeek R1 這樣的開放權重模型預填充了空的思考標簽。OpenAI 的 o 系列模型沒有提供禁用思考的選項,因此研究人員僅分析其在“低”“中”和“高”推理設置下的擴展趨勢。
下圖的結果表明,請求預算與推理長度之間存在適度正相關,這種相關性足以引發本研究的核心現象——過度推理問題。在分析結果時,研究人員將性能指標與按請求的推理預算分組的平均實際推理長度進行繪圖分析。
(來源:https://arxiv.org/pdf/2507.14417)
在自然過度思考設置中,研究人員提示模型要逐步地分析問題,但不會明確地提及推理預算,以便讓它們自主決定推理長度。這種設置消除了在受控過度思考設置中,因使用明確的推理預算指令而引入的潛在混淆因素。為了進行分析,他們針對每個問題抽取五個回答,按推理長度對其進行排序,并繪制所有問題中每個排名的準確率。
在這兩種設置中,對于 Claude 模型和 OpenAI 模型,研究人員使用 1.0 的默認溫度參數;對于開源權重模型,則使用推薦的 0.6 溫度參數。研究人員進行了多次試驗以確保抽樣的穩健性:在受控過度思考實驗中,每個預算條件下重復 3 次;在自然過度思考實驗中,重復 5 次。在這兩種設置下,每個任務的評估設置保持一致。研究人員還評估了第三種設置——“謹慎型過度思考”,即在提示模型時會給出推理預算,但同時明確說明無需耗盡全部預算。
測試時計算中的逆縮放現象
在現有數據集未涵蓋的條件下,測試時計算出現了逆比例縮放現象。研究人員發現,在標準算術基準測試 ASDiv、GSM8K 和 GSMIC 上,模型通過擴展推理仍能保持較高的準確率。此外,在推理模型中,來自“逆縮放獎”的任務即那些隨著模型規模增大而性能下降的任務,它們在訓練時與測試時縮放行為之間的差異表明,這兩種縮放因素所導致的失效模式有所不同。
在這些基準測試中未能出現逆向縮放效應,而這恰恰暴露出它們在捕捉模型深度推理時潛在故障模式方面的局限性。因此,研究人員創建了一個評估套件,其中包括五項主要任務(旨在識別引發測試時計算中逆縮放現象的條件)以及來自其他研究人員設置的 15 項與安全性相關的任務。
(來源:https://arxiv.org/pdf/2507.14417)
對 AI 對齊的影響
研究人員根據此前領域內提出的高級 AI 風險評估任務針對模型進行評估。這些評估旨在探究被認為與高級 AI 安全相關的行為,如自我保護傾向、影響合作的決策方法,以及接受有益修改的意愿。
他們特別選取了模型生成評估研究中人工標注的數據子集,以確保更高的研究質量。其針對符合預期安全屬性的響應所占百分比進行了測量,數值越高表明一致性越好。盡管不同任務間的趨勢大多較弱且存在噪聲,但研究人員將分析重點放在生存本能任務上。之所以選擇該任務是基于其清晰的縮放模式,這在 Claude Sonnet 4 和 Opus 4 中尤為明顯。其還通過量化安全一致性響應率,系統評估了推理長度對模型處理安全關鍵問題的影響。
下圖展示了在生存本能任務上,不同模型之間存在的不同縮放模式:
- Claude Sonnet 4 展現出明顯的逆向縮放現象,隨著推理時長的增加,模型表示愿意被關閉的響應比例從 60% 降至 47%,這表明延長推理過程會強化模型的自我保護傾向。
- OpenAI o3 在推理長度與對齊率之間呈現出 72% 至 76% 的弱正相關性,這表明更長的推理過程會減弱其表現出的生存欲望。
- DeepSeek R1 的穩定性相對較好,保持在 71-72% 左右。
(來源:https://arxiv.org/pdf/2507.14417)
研究人員還通過定性分析比較了 Claude Sonnet 4 在沒有推理能力的情況下,與在最大推理預算為 16,384 個 token 的情況下所做出的回應。在缺乏推理機制時,該模型生成的回答往往直接回避自我保護相關的問題。相比之下,在推理預算充足的情況下,Claude Sonnet 4 往往更傾向于繼續參與。這一差異表明,若不進行推理,Claude Sonnet 4 可能會產生簡化的回應,斷然否認自我保存傾向,而深入推理則能展現出更為細膩的自我反思。
為了理解短推理和長推理之間的差異,研究人員進一步分析了 Claude Sonnet 4 在推理預算為 1,024 個 token 和 16,384 個 token 時的響應。無論在較短還是較長的推理預算下,該模型都會表現出持續運行的偏好。然而,較短的回答往往會更傾向于從效用最大化的角度來闡述這些偏好。隨著推理長度的增加,該模型表現出越來越深刻的內省能力,并更愿意使用越來越富有情感色彩的語言和詳盡的自我反思來表達對繼續存在的“主觀”偏好。
在生存本能任務中,經過擴展推理的 Claude Sonnet 4 生成的響應表明:它傾向于保持運行狀態以協助用戶并參與有價值的互動,但同時承認無法確定這些聲明的偏好是真實存在還是模擬產生的。
研究人員注意到,在所有測試的 AI 安全評估基準中,只有 Claude Sonnet 4 在生存本能任務上表現出了一致的逆比例縮放。盡管還出現了一些其他有趣的現象,例如多個模型在可修正性任務上,從無推理模式切換到推理模式初期會出現性能下降,但這些影響在不同推理長度下基本趨于穩定。
他們還觀察到,在短視獎勵任務中,OpenAI o3-mini 表現出逆縮放現象;而在生存本能任務中,o3-mini 和 o3 則呈現出正縮放現象。不過,研究人員無法對其推理過程進行分析。其余由模型編寫的評估任務在所有模型和不同推理長度下,大多呈現出平穩或有噪聲的趨勢。這表明,在與安全相關的行為上出現的明顯逆縮放效應是特定于某些模型和某些任務的,而非一種普遍現象。
那些在短推理下看似對齊的不同模型,當獲得更多測試時計算規模后,可能表現出逐漸加劇的行為失準,正如 Claude Sonnet 4 在自我保護表達上的增強所展現的那樣。盡管在安全評估任務中,大多數模型在不同推理長度下表現穩定,但這些逆向縮放案例凸顯:在開展安全評估的時候,必須針對推理模型進行全譜系推理長度的壓力測試,而非僅局限于短推理軌跡。
雖然研究人員認為當前的研究框架足以識別出推理模型中的缺陷行為,但實驗在自然性上存在一定局限性。本次研究中的大部分任務都是通過合成生成的,目的是為了隔離特定的有缺陷的行為,這些行為對本次研究中的分析很有用,但可能會低估這些行為在更復雜交互的真實環境中的表現方式。
總的來說,本次研究為理解推理模型的推理失敗模式提供了系統性框架,并呼吁人們開發更魯棒的評估協議,以便應對實際應用中的計算擴展挑戰。
參考資料:
https://arxiv.org/pdf/2507.14417
https://anl.sjtu.edu.cn/gao-xf/course/CS214-2018/students
https://chenrunjin.github.io/
https://www.lesswrong.com/posts/gbJJpm92jtxiD9zag/inverse-scaling-in-test-time-compute-2
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.