網易首頁 > 網易號 > 正文申請入駐

AI需要「像人類」那樣思考？AlphaOne揭示大模型的「思考之道」

2025-06-23 17:37:28　來源: 機器之心Pro

天津舉報

分享至

本文共同第一作者為張均瑜與董潤沛，分別為伊利諾伊大學厄巴納-香檳分校計算機科學研究生與博士生；該研究工作在伊利諾伊大學厄巴納-香檳分校張歡教授與 Saurabh Gupta 教授，加州大學伯克利分校 Jitendra Malik 教授的指導下完成。

「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman，Thinking，Fast and Slow(2011)

在思維節奏這件事上，人類早已形成一種獨特而復雜的模式。

我們習慣讓 AI 模仿人類思維方式：先依賴直覺快速反應（System 1），再慢慢進入邏輯推理（System 2）；答題時先給出初步判斷，再自我反思逐步修正……模仿人類的推理節奏，已經成為語言模型推理策略的默認路徑。

最近，一項來自 UIUC 與 UC Berkeley 的新研究提出：也許模型不該再走這條「人類范式」的老路。

他們提出了一種新的測試時推理調控框架——AlphaOne，主張讓模型反其道而行：先慢速思考，再快速推理。

論文標題：AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
項目主頁：https://alphaone-project.github.io/
論文地址：https://arxiv.org/pdf/2505.24863
代碼地址：https://github.com/ASTRAL-Group/AlphaOne

令人意外的是，這一策略不依賴任何額外訓練，僅需在測試階段引入一個全局推理調控超參數 α，即可顯著提升模型的推理準確率，同時讓生成過程更加高效緊湊?；蛟S，是時候重新思考：AI 真的需要「像人類」那樣思考嗎？

看似聰明的推理，其實是不懂停下來的錯覺

近年的大型推理模型（LRMs），如 OpenAI o1 和 DeepSeek-R1，在復雜推理任務上取得顯著進展，逐漸具備類似人類的 System-2 能力，能夠在測試階段主動慢思考，從而處理需要高階認知的難題。

這些模型通過強化學習訓練出的「慢思考」策略，讓它們在面對復雜問題時能夠自動放緩推理節奏，從而取得更好的表現。但這種自動「慢下來」的能力真的可靠嗎？

與人類不同的是，大模型在推理過程中很難像我們那樣靈活切換快慢節奏。心理學中描述的 System-1 與 System-2 轉換，是一種受控、動態的思維過程——我們先快速判斷，再在困難時激活深度思考，從而在效率與準確之間找到平衡。

相比之下，現有模型往往要么陷入過度思考（overthinking），生成冗長無用的推理鏈；要么思考不足（underthinking），在問題真正展開前就草率收場。

這背后的根源在于：模型缺乏對推理節奏的主動調控能力，無法準確找到「該慢下來」的最佳時機。

無需訓練的全局推理調控，AlphaOne 只做了一件事

AlphaOne 的核心，是引入統一的調控點 α-moment：α-moment 之前通過 Bernoulli 過程插入「慢思考」標記，之后用終止標記切換為快思考，實現無需訓練的連續推理調控。

圖 1：不同推理調控方法在推理過程中的表現對比。α1（紅色）采用由 α 控制的「先慢后快」推理策略，相比之下，α1 的推理效率優于單調延長思考型方法 s1（黃色），并在整體表現上普遍優于單調壓縮推理型方法（紫色）。

什么是 α-moment？

目前多數現有方法要么采用固定的慢思考機制（如在末尾強制延長思考），或者采用單調壓縮推理生成策略。然而，這類設計通常缺乏對推理階段整體結構的統一建模。我們是否可以在無需訓練的前提下，統一調控整個推理過程的演進方式，并設計出更高效的「慢思考轉化策略」？

AlphaOne 對此提出了解答：通過引入α-moment——一個統一的調控節點，即推理階段達到平均思考長度 α 倍的位置。在此之前引導深度思考，在此之后轉入快速推進。它不依賴固定閾值或啟發式規則，而是提供了一個可調、可遷移的推理控制接口

圖 2：AlphaOne（α1）整體流程示意圖。在 α-moment 之前，模型按照用戶設定的策略，以 Bernoulli 過程插入 wait，引導深度推理；α-moment 之后，wait 會被替換為，以促進快思考。α 的數值決定這一轉換的時機，例如將 α 從 1.4 降至 1.0，會提前結束慢思考，并加快 pwait 的衰減速度。

α-moment 前：慢思考調控機制

在 α-moment 之前，α1 通過一種概率驅動的調控策略，逐步引導模型進入深度推理狀態。

具體來說，當模型生成結構性停頓（如 \n\n）時，會以一定概率插入wait——這是一種慢思考過渡標記（slow-reasoning transition token），用于顯式地觸發模型的慢思考行為。這種插入并不是固定次數，而是基于一個Bernoulli 采樣過程，其概率 pwait 由用戶設定的調度函數 S(t) 控制。

調度函數可以是線性下降（先慢后快）、線性上升（先快后慢）、指數衰減等多種形式。AlphaOne 默認采用線性衰減策略——在推理初期更頻繁地引導慢思考，后期逐步減少干預，避免過度拖延。

圖 3：不同調度函數的可視化

α-moment 后：快思考引導機制

但另一個挑戰隨之而來：如果持續插入 wait，模型可能會陷入「慢思考慣性」，遲遲無法回歸高效推理。

為了解決這個問題，AlphaOne 在 α-moment 之后顯式終止慢思考：一旦生成節點超過 α-moment，所有后續的 wait（即慢思考過渡標記）將被統一替換為 ——這是一個思考終止標記（end-of-thinking token），用于打斷延續中的慢思考鏈。

值得注意的是，并不代表模型立即開始作答。由于慢思考慣性，模型往往無法直接切換到答案生成階段。因此，實際上起到的是快思考觸發信號的作用，用于提醒模型當前應結束反復推理、轉向高效推進。這種機制被稱為確定性推理終止，它讓模型能夠自然地從「深度反思」切換到「快速收斂」，避免低效的推理拖延。

從數學到科學問答，AlphaOne 的策略勝在哪里？

研究團隊在六大推理任務中進行了系統實驗，涵蓋數學題解、代碼生成、科學問題理解等多種類型。

實驗總結

準確率全面領先：無論在小模型（1.5B）還是大模型（32B）上，α1 都比原始模型和現有推理調控方法（如 s1 和 CoD）更準確。
以 1.5B 模型為例，α1 提升準確率達+6.15%
推理效率顯著優化：盡管采用了慢思考機制，α1 在 1.5B 模型中平均生成 token 數卻減少了14%，展現出高效慢思考的非直覺優勢。

表 1：α1 與基線方法在數學、代碼與科學推理任務中的系統性能比較

關鍵問題分析

哪種「慢思考調度」最有效？

對比四種調度策略（常數調度、線性遞增、線性衰減、指數衰減）后發現，線性衰減在多個任務上均取得最優表現，驗證了 α1 所采用的「先慢思、后加速」式推理調控方式在實踐中更加有效和穩定。

圖 4：不同調度策略在 AMC23 和 OlympiadBench 上的推理準確率

α-moment 能否靈活調控「思考預算」？

實驗結果表明，調節 α 值可以有效擴展或壓縮模型的「思考階段」長度。隨著 α 增大，模型插入的 wait 標記數量相應增加，平均思考 token 數也隨之增長，體現出 α-moment 對思考預算具有良好的可伸縮性（scalability）。

盡管如此，推理準確率并非隨 α 增大而持續提升，存在一個性能最優的 α 區間，而 α1 在較寬的 α 調控范圍內始終優于原模型，體現出良好的魯棒性和泛化能力。

圖 5：α 的縮放特性分析

α1 推理效率真的更高嗎？

使用 REP（Reasoning Efficiency–Performance）指標系統評估后發現，α1 在多個任務中更高效率下的更優推理準確率，優于 s1 和 CoD 等基線方法。

圖 6：基于 REP 指標的推理效率分析

圖 7：常數調度下 wait 插入頻率的縮放特性

α-moment 后的快思考引導機制是否必要？

如果在 α-moment 后沒有明確「結束慢思考」，模型容易陷入推理慣性，導致性能明顯下降。實驗證明，僅依賴前段慢思考調控是遠遠不夠的。

α1 通過 α-moment 之后的顯式終止操作，成功促使模型切換至快思考，驗證了從快到慢的雙階段調控策略對于提升推理效果的必要性。

表 2：是否啟用后 α-moment 調控機制對推理性能的影響

具體案例

為了更直觀地理解 α1 的作用，研究者展示了來自不同基準的推理案例，分別對應模型在使用 α1 后的成功與失敗。

成功案例：化學混合題（OlympiadBench）

失敗案例：多角恒等式推理（AMC23）

AlphaOne 之后，還有哪些可能？

α1 提供了一種無需訓練、即可在測試階段靈活調控推理過程的全新框架，初步驗證了「慢思考→快思考」的策略對大模型推理效果與效率的顯著提升。

但真正理解「思考」如何被更好地建模，僅僅邁出了一小步。研究者提出了幾個值得關注的方向：

更復雜的慢思考調度策略：當前只探索了簡單的「先慢后快」調控策略，未來可以設計更精細的調度函數，甚至發展出獨立的推理調控模塊。
擺脫特定標記的依賴：現階段調控往往依賴wait 等特殊轉移標記，但不同模型對這些標記的響應不同。未來若能完全擺脫這些「外部標簽」，將極大增強泛化能力。
跨模態推理的擴展：當前工作聚焦于文本推理，而多模態大模型（如圖文、視頻大模型）正快速崛起。未來可將α1 框架擴展至多模態場景，探索語言與感知信息的協同推理。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.