本文共同第一作者為張均瑜與董潤沛,分別為伊利諾伊大學厄巴納-香檳分校計算機科學研究生與博士生;該研究工作在伊利諾伊大學厄巴納-香檳分校張歡教授與 Saurabh Gupta 教授,加州大學伯克利分校 Jitendra Malik 教授的指導下完成。
「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast and Slow(2011)
在思維節奏這件事上,人類早已形成一種獨特而復雜的模式。
我們習慣讓 AI 模仿人類思維方式:先依賴直覺快速反應(System 1),再慢慢進入邏輯推理(System 2);答題時先給出初步判斷,再自我反思逐步修正……模仿人類的推理節奏,已經成為語言模型推理策略的默認路徑。
最近,一項來自 UIUC 與 UC Berkeley 的新研究提出:也許模型不該再走這條「人類范式」的老路。
他們提出了一種新的測試時推理調控框架——AlphaOne,主張讓模型反其道而行:先慢速思考,再快速推理。
- 論文標題:AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
- 項目主頁:https://alphaone-project.github.io/
- 論文地址:https://arxiv.org/pdf/2505.24863
- 代碼地址:https://github.com/ASTRAL-Group/AlphaOne
令人意外的是,這一策略不依賴任何額外訓練,僅需在測試階段引入一個全局推理調控超參數 α,即可顯著提升模型的推理準確率,同時讓生成過程更加高效緊湊?;蛟S,是時候重新思考:AI 真的需要「像人類」那樣思考嗎?
看似聰明的推理,其實是不懂停下來的錯覺
近年的大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,在復雜推理任務上取得顯著進展,逐漸具備類似人類的 System-2 能力,能夠在測試階段主動慢思考,從而處理需要高階認知的難題。
這些模型通過強化學習訓練出的「慢思考」策略,讓它們在面對復雜問題時能夠自動放緩推理節奏,從而取得更好的表現。但這種自動「慢下來」的能力真的可靠嗎?
與人類不同的是,大模型在推理過程中很難像我們那樣靈活切換快慢節奏。心理學中描述的 System-1 與 System-2 轉換,是一種受控、動態的思維過程——我們先快速判斷,再在困難時激活深度思考,從而在效率與準確之間找到平衡。
相比之下,現有模型往往要么陷入過度思考(overthinking),生成冗長無用的推理鏈;要么思考不足(underthinking),在問題真正展開前就草率收場。
這背后的根源在于:模型缺乏對推理節奏的主動調控能力,無法準確找到「該慢下來」的最佳時機。
無需訓練的全局推理調控,AlphaOne 只做了一件事
AlphaOne 的核心,是引入統一的調控點 α-moment:α-moment 之前通過 Bernoulli 過程插入「慢思考」標記,之后用終止標記切換為快思考,實現無需訓練的連續推理調控。
圖 1:不同推理調控方法在推理過程中的表現對比。α1(紅色)采用由 α 控制的「先慢后快」推理策略,相比之下,α1 的推理效率優于單調延長思考型方法 s1(黃色),并在整體表現上普遍優于單調壓縮推理型方法(紫色)。
什么是 α-moment?
目前多數現有方法要么采用固定的慢思考機制(如在末尾強制延長思考),或者采用單調壓縮推理生成策略。然而,這類設計通常缺乏對推理階段整體結構的統一建模。我們是否可以在無需訓練的前提下,統一調控整個推理過程的演進方式,并設計出更高效的「慢思考轉化策略」?
AlphaOne 對此提出了解答:通過引入α-moment——一個統一的調控節點,即推理階段達到平均思考長度 α 倍的位置。在此之前引導深度思考,在此之后轉入快速推進。它不依賴固定閾值或啟發式規則,而是提供了一個可調、可遷移的推理控制接口
圖 2:AlphaOne(α1)整體流程示意圖。在 α-moment 之前,模型按照用戶設定的策略,以 Bernoulli 過程插入 wait,引導深度推理;α-moment 之后,wait 會被替換為 ,以促進快思考。α 的數值決定這一轉換的時機,例如將 α 從 1.4 降至 1.0,會提前結束慢思考,并加快 pwait 的衰減速度。
α-moment 前:慢思考調控機制
在 α-moment 之前,α1 通過一種概率驅動的調控策略,逐步引導模型進入深度推理狀態。
具體來說,當模型生成結構性停頓(如 \n\n)時,會以一定概率插入wait——這是一種慢思考過渡標記(slow-reasoning transition token),用于顯式地觸發模型的慢思考行為。這種插入并不是固定次數,而是基于一個Bernoulli 采樣過程,其概率 pwait 由用戶設定的調度函數 S(t) 控制。
調度函數可以是線性下降(先慢后快)、線性上升(先快后慢)、指數衰減等多種形式。AlphaOne 默認采用線性衰減策略——在推理初期更頻繁地引導慢思考,后期逐步減少干預,避免過度拖延。
圖 3:不同調度函數的可視化
α-moment 后:快思考引導機制
但另一個挑戰隨之而來:如果持續插入 wait,模型可能會陷入「慢思考慣性」,遲遲無法回歸高效推理。
為了解決這個問題,AlphaOne 在 α-moment 之后顯式終止慢思考: 一旦生成節點超過 α-moment,所有后續的 wait(即慢思考過渡標記)將被統一替換為 ——這是一個思考終止標記(end-of-thinking token),用于打斷延續中的慢思考鏈。
值得注意的是, 并不代表模型立即開始作答。由于慢思考慣性,模型往往無法直接切換到答案生成階段。因此, 實際上起到的是快思考觸發信號的作用,用于提醒模型當前應結束反復推理、轉向高效推進。這種機制被稱為確定性推理終止,它讓模型能夠自然地從「深度反思」切換到「快速收斂」,避免低效的推理拖延。
從數學到科學問答,AlphaOne 的策略勝在哪里?
研究團隊在六大推理任務中進行了系統實驗,涵蓋數學題解、代碼生成、科學問題理解等多種類型。
實驗總結
- 準確率全面領先:無論在小模型(1.5B)還是大模型(32B)上,α1 都比原始模型和現有推理調控方法(如 s1 和 CoD)更準確。
- 以 1.5B 模型為例,α1 提升準確率達+6.15%
- 推理效率顯著優化:盡管采用了慢思考機制,α1 在 1.5B 模型中平均生成 token 數卻減少了14%,展現出高效慢思考的非直覺優勢。
表 1:α1 與基線方法在數學、代碼與科學推理任務中的系統性能比較
關鍵問題分析
- 哪種「慢思考調度」最有效?
對比四種調度策略(常數調度、線性遞增、線性衰減、指數衰減)后發現,線性衰減在多個任務上均取得最優表現,驗證了 α1 所采用的「先慢思、后加速」式推理調控方式在實踐中更加有效和穩定。
圖 4:不同調度策略在 AMC23 和 OlympiadBench 上的推理準確率
- α-moment 能否靈活調控「思考預算」?
實驗結果表明,調節 α 值可以有效擴展或壓縮模型的「思考階段」長度。隨著 α 增大,模型插入的 wait 標記數量相應增加,平均思考 token 數也隨之增長,體現出 α-moment 對思考預算具有良好的可伸縮性(scalability)。
盡管如此,推理準確率并非隨 α 增大而持續提升,存在一個性能最優的 α 區間,而 α1 在較寬的 α 調控范圍內始終優于原模型,體現出良好的魯棒性和泛化能力。
圖 5:α 的縮放特性分析
- α1 推理效率真的更高嗎?
使用 REP(Reasoning Efficiency–Performance)指標系統評估后發現,α1 在多個任務中更高效率下的更優推理準確率,優于 s1 和 CoD 等基線方法。
圖 6:基于 REP 指標的推理效率分析
圖 7:常數調度下 wait 插入頻率的縮放特性
- α-moment 后的快思考引導機制是否必要?
如果在 α-moment 后沒有明確「結束慢思考」,模型容易陷入推理慣性,導致性能明顯下降。實驗證明,僅依賴前段慢思考調控是遠遠不夠的。
α1 通過 α-moment 之后的顯式終止操作,成功促使模型切換至快思考,驗證了從快到慢的雙階段調控策略對于提升推理效果的必要性。
表 2:是否啟用后 α-moment 調控機制對推理性能的影響
具體案例
為了更直觀地理解 α1 的作用,研究者展示了來自不同基準的推理案例,分別對應模型在使用 α1 后的成功與失敗。
- 成功案例:化學混合題(OlympiadBench)
- 失敗案例:多角恒等式推理(AMC23)
AlphaOne 之后,還有哪些可能?
α1 提供了一種無需訓練、即可在測試階段靈活調控推理過程的全新框架,初步驗證了「慢思考→快思考」的策略對大模型推理效果與效率的顯著提升。
但真正理解「思考」如何被更好地建模,僅僅邁出了一小步。研究者提出了幾個值得關注的方向:
- 更復雜的慢思考調度策略:當前只探索了簡單的「先慢后快」調控策略,未來可以設計更精細的調度函數,甚至發展出獨立的推理調控模塊。
- 擺脫特定標記的依賴:現階段調控往往依賴wait 等特殊轉移標記,但不同模型對這些標記的響應不同。未來若能完全擺脫這些「外部標簽」,將極大增強泛化能力。
- 跨模態推理的擴展:當前工作聚焦于文本推理,而多模態大模型(如圖文、視頻大模型)正快速崛起。未來可將α1 框架擴展至多模態場景,探索語言與感知信息的協同推理。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.