99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI需要「像人類」那樣思考?AlphaOne揭示大模型的「思考之道」

0
分享至



本文共同第一作者為張均瑜與董潤沛,分別為伊利諾伊大學厄巴納-香檳分校計算機科學研究生與博士生;該研究工作在伊利諾伊大學厄巴納-香檳分校張歡教授與 Saurabh Gupta 教授,加州大學伯克利分校 Jitendra Malik 教授的指導下完成。

「The most effortful forms of slow thinking are those that require you to think fast.」 ——Daniel Kahneman,Thinking,Fast and Slow(2011)



在思維節奏這件事上,人類早已形成一種獨特而復雜的模式。

我們習慣讓 AI 模仿人類思維方式:先依賴直覺快速反應(System 1),再慢慢進入邏輯推理(System 2);答題時先給出初步判斷,再自我反思逐步修正……模仿人類的推理節奏,已經成為語言模型推理策略的默認路徑。

最近,一項來自 UIUC 與 UC Berkeley 的新研究提出:也許模型不該再走這條「人類范式」的老路。

他們提出了一種新的測試時推理調控框架——AlphaOne,主張讓模型反其道而行:先慢速思考,再快速推理。



  • 論文標題:AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time
  • 項目主頁:https://alphaone-project.github.io/
  • 論文地址:https://arxiv.org/pdf/2505.24863
  • 代碼地址:https://github.com/ASTRAL-Group/AlphaOne

令人意外的是,這一策略不依賴任何額外訓練,僅需在測試階段引入一個全局推理調控超參數 α,即可顯著提升模型的推理準確率,同時讓生成過程更加高效緊湊?;蛟S,是時候重新思考:AI 真的需要「像人類」那樣思考嗎?

看似聰明的推理,其實是不懂停下來的錯覺

近年的大型推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,在復雜推理任務上取得顯著進展,逐漸具備類似人類的 System-2 能力,能夠在測試階段主動慢思考,從而處理需要高階認知的難題。

這些模型通過強化學習訓練出的「慢思考」策略,讓它們在面對復雜問題時能夠自動放緩推理節奏,從而取得更好的表現。但這種自動「慢下來」的能力真的可靠嗎?

與人類不同的是,大模型在推理過程中很難像我們那樣靈活切換快慢節奏。心理學中描述的 System-1 與 System-2 轉換,是一種受控、動態的思維過程——我們先快速判斷,再在困難時激活深度思考,從而在效率與準確之間找到平衡。

相比之下,現有模型往往要么陷入過度思考(overthinking),生成冗長無用的推理鏈;要么思考不足(underthinking),在問題真正展開前就草率收場。

這背后的根源在于:模型缺乏對推理節奏的主動調控能力,無法準確找到「該慢下來」的最佳時機。

無需訓練的全局推理調控,AlphaOne 只做了一件事

AlphaOne 的核心,是引入統一的調控點 α-moment:α-moment 之前通過 Bernoulli 過程插入「慢思考」標記,之后用終止標記切換為快思考,實現無需訓練的連續推理調控。



圖 1:不同推理調控方法在推理過程中的表現對比。α1(紅色)采用由 α 控制的「先慢后快」推理策略,相比之下,α1 的推理效率優于單調延長思考型方法 s1(黃色),并在整體表現上普遍優于單調壓縮推理型方法(紫色)。

什么是 α-moment?

目前多數現有方法要么采用固定的慢思考機制(如在末尾強制延長思考),或者采用單調壓縮推理生成策略。然而,這類設計通常缺乏對推理階段整體結構的統一建模。我們是否可以在無需訓練的前提下,統一調控整個推理過程的演進方式,并設計出更高效的「慢思考轉化策略」?

AlphaOne 對此提出了解答:通過引入α-moment——一個統一的調控節點,即推理階段達到平均思考長度 α 倍的位置。在此之前引導深度思考,在此之后轉入快速推進。它不依賴固定閾值或啟發式規則,而是提供了一個可調、可遷移的推理控制接口



圖 2:AlphaOne(α1)整體流程示意圖。在 α-moment 之前,模型按照用戶設定的策略,以 Bernoulli 過程插入 wait,引導深度推理;α-moment 之后,wait 會被替換為 ,以促進快思考。α 的數值決定這一轉換的時機,例如將 α 從 1.4 降至 1.0,會提前結束慢思考,并加快 pwait 的衰減速度。

α-moment 前:慢思考調控機制

在 α-moment 之前,α1 通過一種概率驅動的調控策略,逐步引導模型進入深度推理狀態。

具體來說,當模型生成結構性停頓(如 \n\n)時,會以一定概率插入wait——這是一種慢思考過渡標記(slow-reasoning transition token),用于顯式地觸發模型的慢思考行為。這種插入并不是固定次數,而是基于一個Bernoulli 采樣過程,其概率 pwait 由用戶設定的調度函數 S(t) 控制。

調度函數可以是線性下降(先慢后快)、線性上升(先快后慢)、指數衰減等多種形式。AlphaOne 默認采用線性衰減策略——在推理初期更頻繁地引導慢思考,后期逐步減少干預,避免過度拖延。



圖 3:不同調度函數的可視化

α-moment 后:快思考引導機制

但另一個挑戰隨之而來:如果持續插入 wait,模型可能會陷入「慢思考慣性」,遲遲無法回歸高效推理。

為了解決這個問題,AlphaOne 在 α-moment 之后顯式終止慢思考: 一旦生成節點超過 α-moment,所有后續的 wait(即慢思考過渡標記)將被統一替換為 ——這是一個思考終止標記(end-of-thinking token),用于打斷延續中的慢思考鏈。

值得注意的是, 并不代表模型立即開始作答。由于慢思考慣性,模型往往無法直接切換到答案生成階段。因此, 實際上起到的是快思考觸發信號的作用,用于提醒模型當前應結束反復推理、轉向高效推進。這種機制被稱為確定性推理終止,它讓模型能夠自然地從「深度反思」切換到「快速收斂」,避免低效的推理拖延。

從數學到科學問答,AlphaOne 的策略勝在哪里?

研究團隊在六大推理任務中進行了系統實驗,涵蓋數學題解、代碼生成、科學問題理解等多種類型。

實驗總結

  • 準確率全面領先:無論在小模型(1.5B)還是大模型(32B)上,α1 都比原始模型和現有推理調控方法(如 s1 和 CoD)更準確。
  • 以 1.5B 模型為例,α1 提升準確率達+6.15%
  • 推理效率顯著優化:盡管采用了慢思考機制,α1 在 1.5B 模型中平均生成 token 數卻減少了14%,展現出高效慢思考的非直覺優勢。



表 1:α1 與基線方法在數學、代碼與科學推理任務中的系統性能比較

關鍵問題分析

  • 哪種「慢思考調度」最有效?

對比四種調度策略(常數調度、線性遞增、線性衰減、指數衰減)后發現,線性衰減在多個任務上均取得最優表現,驗證了 α1 所采用的「先慢思、后加速」式推理調控方式在實踐中更加有效和穩定。



圖 4:不同調度策略在 AMC23 和 OlympiadBench 上的推理準確率

  • α-moment 能否靈活調控「思考預算」?

實驗結果表明,調節 α 值可以有效擴展或壓縮模型的「思考階段」長度。隨著 α 增大,模型插入的 wait 標記數量相應增加,平均思考 token 數也隨之增長,體現出 α-moment 對思考預算具有良好的可伸縮性(scalability)。

盡管如此,推理準確率并非隨 α 增大而持續提升,存在一個性能最優的 α 區間,而 α1 在較寬的 α 調控范圍內始終優于原模型,體現出良好的魯棒性和泛化能力。



圖 5:α 的縮放特性分析

  • α1 推理效率真的更高嗎?

使用 REP(Reasoning Efficiency–Performance)指標系統評估后發現,α1 在多個任務中更高效率下的更優推理準確率,優于 s1 和 CoD 等基線方法。





圖 6:基于 REP 指標的推理效率分析





圖 7:常數調度下 wait 插入頻率的縮放特性

  • α-moment 后的快思考引導機制是否必要?

如果在 α-moment 后沒有明確「結束慢思考」,模型容易陷入推理慣性,導致性能明顯下降。實驗證明,僅依賴前段慢思考調控是遠遠不夠的。

α1 通過 α-moment 之后的顯式終止操作,成功促使模型切換至快思考,驗證了從快到慢的雙階段調控策略對于提升推理效果的必要性。



表 2:是否啟用后 α-moment 調控機制對推理性能的影響

具體案例

為了更直觀地理解 α1 的作用,研究者展示了來自不同基準的推理案例,分別對應模型在使用 α1 后的成功與失敗。

  • 成功案例:化學混合題(OlympiadBench)



  • 失敗案例:多角恒等式推理(AMC23)



AlphaOne 之后,還有哪些可能?

α1 提供了一種無需訓練、即可在測試階段靈活調控推理過程的全新框架,初步驗證了「慢思考→快思考」的策略對大模型推理效果與效率的顯著提升。

但真正理解「思考」如何被更好地建模,僅僅邁出了一小步。研究者提出了幾個值得關注的方向:

  • 更復雜的慢思考調度策略:當前只探索了簡單的「先慢后快」調控策略,未來可以設計更精細的調度函數,甚至發展出獨立的推理調控模塊。
  • 擺脫特定標記的依賴:現階段調控往往依賴wait 等特殊轉移標記,但不同模型對這些標記的響應不同。未來若能完全擺脫這些「外部標簽」,將極大增強泛化能力。
  • 跨模態推理的擴展:當前工作聚焦于文本推理,而多模態大模型(如圖文、視頻大模型)正快速崛起。未來可將α1 框架擴展至多模態場景,探索語言與感知信息的協同推理。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
也門胡塞武裝:與美國達成?;饏f議是在其與伊朗“開戰”之前,我們對美國襲擊伊朗的回應只是時間問題

也門胡塞武裝:與美國達成?;饏f議是在其與伊朗“開戰”之前,我們對美國襲擊伊朗的回應只是時間問題

和訊網
2025-06-22 15:13:11
印度拒絕用中國北斗,成功國產出衛星,性能超過美國GPS和北斗?

印度拒絕用中國北斗,成功國產出衛星,性能超過美國GPS和北斗?

慎獨贏
2025-01-14 11:32:15
消息證實!著名導演醫治無效,不幸去世

消息證實!著名導演醫治無效,不幸去世

FM93浙江交通之聲
2025-06-23 22:35:57
還是卡魯索有經驗!哈滕:球隊沒人會開香檳,卡魯索不得不現場教學

還是卡魯索有經驗!哈滕:球隊沒人會開香檳,卡魯索不得不現場教學

雷速體育
2025-06-23 12:28:29
女子6歲的小貓發燒不吃不喝,母親誤認為將離世準備悼詞:希望貓咪來世考上大連理工

女子6歲的小貓發燒不吃不喝,母親誤認為將離世準備悼詞:希望貓咪來世考上大連理工

瀟湘晨報
2025-06-23 18:11:46
俄羅斯準備支持伊朗發展和平核能!普京擔心沖突“滑向第三次世界大戰”

俄羅斯準備支持伊朗發展和平核能!普京擔心沖突“滑向第三次世界大戰”

魯中晨報
2025-06-21 16:45:13
突發!千億級國企原副總經理投案,兩天前剛辭職

突發!千億級國企原副總經理投案,兩天前剛辭職

中國房地產報官方號
2025-06-23 15:12:42
2025年5月燃油車銷量排行榜(轎車/SUV)

2025年5月燃油車銷量排行榜(轎車/SUV)

中汽數研
2025-06-21 15:10:11
00后殘疾男子爸媽是親兄妹,外公外婆是兄妹,新型“龍蝦族”出現

00后殘疾男子爸媽是親兄妹,外公外婆是兄妹,新型“龍蝦族”出現

葡萄說娛
2025-06-18 14:45:33
藏了40年的爸爸竟是陳道明!不拼爹不炒作,怪不得她這么優秀

藏了40年的爸爸竟是陳道明!不拼爹不炒作,怪不得她這么優秀

卷史
2025-06-14 18:48:15
伊第17波導彈,鐵穹攔截失敗,伊實戰告訴美軍:中國導彈攔不??!

伊第17波導彈,鐵穹攔截失敗,伊實戰告訴美軍:中國導彈攔不??!

星辰故事屋
2025-06-22 13:06:36
“事出反常必有妖”:竟然有高手總結了中國的現狀,絕了!

“事出反常必有妖”:竟然有高手總結了中國的現狀,絕了!

詩詞中國
2025-06-22 14:46:30
北青:東亞杯男足賽事將全部選用東南亞裁判 因經費有限不采用VAR

北青:東亞杯男足賽事將全部選用東南亞裁判 因經費有限不采用VAR

直播吧
2025-06-23 21:05:43
29歲郭麒麟再破天花板,這一次,他讓岳云鵬和整個內娛“沉默”了

29歲郭麒麟再破天花板,這一次,他讓岳云鵬和整個內娛“沉默”了

跳跳歷史
2025-06-23 17:33:34
哈梅內伊敢封鎖霍爾木茲海峽?中國沙特反對,伊朗經濟無異于自殺

哈梅內伊敢封鎖霍爾木茲海峽?中國沙特反對,伊朗經濟無異于自殺

肖茲探秘說
2025-06-23 21:41:31
剛剛!地震了!東莞震感明顯!

剛剛!地震了!東莞震感明顯!

東莞好生活
2025-06-23 20:02:02
皇馬3-1,驗出20歲新卡卡!組織+推射進球,外形帥氣,未來可期

皇馬3-1,驗出20歲新卡卡!組織+推射進球,外形帥氣,未來可期

阿泰希特
2025-06-23 10:19:05
德媒:俄軍全線攻勢猛如壓路機,烏軍僅剩3成兵力毫無反手之力

德媒:俄軍全線攻勢猛如壓路機,烏軍僅剩3成兵力毫無反手之力

哲學船
2025-06-23 21:15:54
許多人以為殉葬就是活人被推進地宮,事實上殉葬人可能會拼命求生

許多人以為殉葬就是活人被推進地宮,事實上殉葬人可能會拼命求生

南權先生
2025-06-17 12:07:39
嘴角壓不住了!亞歷山大手捧總冠軍獎杯+FMVP獎杯拍攝定妝照

嘴角壓不住了!亞歷山大手捧總冠軍獎杯+FMVP獎杯拍攝定妝照

直播吧
2025-06-23 13:32:18
2025-06-23 23:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10700文章數 142343關注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經要聞

以伊沖突升級,對經濟和股市影響有多大?

汽車要聞

真香價格+質保承諾 別克E5很難讓人拒絕了

態度原創

游戲
健康
時尚
旅游
房產

數毛社《死亡擱淺2》評測:本世代畫質最佳游戲之一!

呼吸科專家破解呼吸道九大謠言!

50+姐姐的穿搭小心機:不裝嫩不扮老,這樣穿才顯貴又舒服

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

3天,75億!海南賣地殺瘋了!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 翼城县| 大田县| 九台市| 南投县| 高台县| 卓尼县| 东城区| 山西省| 灵山县| 黄龙县| 工布江达县| 称多县| 镇安县| 曲靖市| 垣曲县| 科尔| 永宁县| 民勤县| 乳源| 阿巴嘎旗| 崇明县| 敖汉旗| 深水埗区| 沧源| 临高县| 江陵县| 塔河县| 财经| 婺源县| 民县| 东海县| 乌鲁木齐市| 赞皇县| 克什克腾旗| 长汀县| 响水县| 阜平县| 潼南县| 嵊州市| 高台县| 辽源市|