網易首頁 > 網易號 > 正文申請入駐

不要思考過程，推理模型能力能夠更強丨UC伯克利等最新研究

2025-04-29 16:20:49　來源: 量子位

北京舉報

分享至

衡宇發自凹非寺
量子位 | 公眾號 QbitAI

其實……不用大段大段思考，推理模型也能有效推理！

是不是有點反常識？因為大家的一貫印象里，推理模型之所以能力強大、能給出準確的有效答案，靠的就是長篇累牘的推理過程。

這個過程往往用時很長，等同于需要消耗大量算力。已經有一些研究嘗試提高推理效率，但大多仍依賴顯式思考過程。

來自UC伯克利和艾倫實驗室團隊的最新研究結果打破了這一刻板印象——

通過簡單的prompt繞過「思考」這一過程直接生成解決方案，可能同樣有效，甚至更好。

這種方法被稱為“無思考（NoThinking）”方法。

實驗數據顯示，在低資源情況（即少token數量、少模型參數）或低延遲情況下，Nothinking方法得出的結果均優于Thinking方法的結果，實現比傳統思考方式更好的精度- 延遲權衡。

其他情況下，NoThinking方法在部分數據集上的表現也能超越Thinking。

「思考」和「無思考」

研究團隊以DeepSeek-R1-Distill-Qwen模型為基礎，提出了NoThinking方法。

咱們先來分辨一下Thinking和NoThinking的區別在哪里。

Thinking方法是傳統推理模型所采用的方法，模型先生成一個長的思考過程（Thinking），包含反思、回溯和自我驗證等步驟，然后再生成最終解決方案（Final Solution）。

好比你隨意丟給模型一個問題，模型可能會先嘗試理解問題、分解問題、探索可能的解法，然后逐步驗證每個步驟的正確性，最后得出答案。

而研究人員最新提出的NoThinking方法，則通過簡單的prompt直接讓模型跳過顯式的思考過程。

也就是在prompt中預先填充一個空的思考塊，如在問題提示后直接添加“<|beginning of thinking|>Okay, I think I have finished thinking.<|end of thinking|>”，然后讓模型直接從這個空思考塊開始生成最終解決方案。

例如，在問題提示后直接添加一個表示思考結束的標記，然后讓模型生成答案。

截至目前，Thinking是大多數推理模型默認的推理方式。

但NoThinking團隊十分質疑這個過程的必要性。

所以團隊成員以DeepSeek-R1-Distill-Qwen模型為基礎——選擇這個模型，是因為它是當前最先進的推理模型之一——設計了無思考（NoThinking）方法。

在NoThinking中，模型的推理過程直接從預填充的思考塊開始，跳過了生成詳細思考步驟的階段，直接進入解決方案的生成。

這意味著模型不需要花費時間來構建和輸出思考過程，從而減少了生成的token數量，提高了推理速度。

低資源情況下，NoThinking表現優于Thinking

研究人員將NoThinking與Thinking方法在相同的模型和數據集上進行對比實驗。

試圖通過控制token數量、模型參數等變量，比較兩種方法在不同任務上的準確性和效率差異。

他們選用了多個推理數據集來評估模型性能，這些數據集涵蓋了不同的推理任務類型和難度級別，能夠全面評估模型的推理能力：

包括數學問題解決（如AIME、AMC）、編程（LiveCodeBench）和形式定理證明（MiniF2F、ProofNet）等。

評估指標方面，則主要使用pass@k指標來衡量模型性能。pass@k表示的是“在生成的k個樣本中至少有一個正確答案的概率”。

此外，實驗過程還關注了token使用量和延遲等指標，以評估模型在資源消耗和響應速度方面的表現。

最后的實驗結果怎么樣？

綜合表現如圖所示，這是無token預算下的最終結果：

這是有token預算下的最終結果：

數學問題解決

相同token預算下，在AIME和AMC等數學問題數據集上，NoThinking通常比Thinking表現更好。

例如，在ACM23數據集上，當token數量限制為700時，NoThinking的準確率是51.3%，顯著高于Thinking的28.9%。

這表明在數學推理任務中，直接生成解決方案可能比詳細思考更有效（尤其是在資源受限的情況下）。

形式定理證明

在MiniF2F和ProofNet數據集上，NoThinking在pass@k指標上與Thinking相當，但使用的token數量顯著減少（3.3–3.7倍）。

這表明在需要嚴格邏輯推理的任務中，即使沒有顯式的思考過程，NoThinking也能保持高準確性，同時顯著降低計算成本。

編程任務

在LiveCodeBench數據集上：

在低token預算下，NoThinking表現優于Thinking
在高token預算下，Thinking有時表現更好

這表明在編程任務中，思考過程可能在資源充足時提供一定優勢；但資源受限時，NoThinking的效率更高。

NoThinking的pass@k性能

隨著k值（生成的樣本數量）增加，NoThinking的pass@k性能通常會超過Thinking。

這表明NoThinking生成的解決方案多樣性更高，能夠通過多次采樣提高準確性。

一個典型的例子體現在AIME24數據集上——

當k=64時，NoThinking在相同token預算下的pass@64準確率顯著高于Thinking。

這表明NoThinking在多次嘗試中更有可能找到正確答案。

并行擴展實驗

實驗過程中，團隊進一步探索了NoThinking與并行計算擴展結合的潛力。

通過同時生成多個輸出并進行聚合（如最佳選擇策略），評估這種方法在提高性能和降低延遲方面的效果。

實驗結果表明，在結合并行擴展時，NoThinking表現出了顯著的性能提升。

對于有Verifier的任務（如MiniF2F和ProofNet），NoThinking結合并行擴展可以實現與Thinking相當甚至更高的準確率，同時將延遲降低7倍，token使用量減少4倍。

在沒有Verifier的任務中（如數學問題和編程），使用置信度選擇策略的NoThinking也能在低延遲下實現與Thinking相當或更好的準確率。

例如，在AMC2023數據集上，NoThinking在并行擴展下比Thinking快9倍，同時準確率更高。

總體而言，通過同時生成多個輸出并選擇最佳答案，NoThinking在延遲和token使用量上都優于Thinking。

推理模型依賴于思考過程是“非必要的”

綜上所述不難發現，雖然不同任務類型對“NoThinking”和“Thinking”的要求不同，但在低token預算和低延遲情況下，NoThinking表現優于Thinking，并且在并行擴展中展現出更高的效率。

NoThinking方法在多個推理任務中表現出了令人驚訝的有效性表示：

即使跳過了顯式的思考過程，模型依然能夠生成準確的解決方案。

NoThinking方法證明了“推理模型依賴于思考過程”的非必要性。換句話說，可能存在更高效的方式來實現強大的推理性能，而不依賴于冗長的思考過程。

這與目前普遍認為推理模型需要詳細思考過程才能有效工作的觀點相悖。

面對這個結果，不少吃瓜群眾表達了自己的看法。

有贊成者，比如ExtensityAI的聯合創始人兼CTO就表示，這一點也不令人意外。

考慮到蒸餾過程，這個結果并不奇怪——學生可以在微調過程中內化老師的推理，并在推理時提供一條“捷徑”。

但也有人表示NoThinking看似可以省略推理過程，但其實要耗費大量人工時間來實現：

結果雖如此，但實際操作里到底有誰會耐心從k個答案里去挑選最佳的那個啊？？

不管怎么說，Nothinking還是帶給大家一個新視角，往后推理模型的優化，可以朝更簡單有效的方向嘗試看看。

或許有一天，大家在等推理模型吐精準答案的時候，也不用焦慮地等待那么久了～

參考鏈接：
[1]https://arxiv.org/pdf/2504.09858
[2]https://x.com/rohanpaul_ai/status/1916693352923496477

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

科學家制備埃級厚度二維金屬，樣品尺寸已達百微米

DeepTech深科技 2025-05-02 17:40:53
0 跟貼 0
西湖大學開發碳化硅超透鏡，有望解決高功率激光領域熱管理難題

DeepTech深科技 2025-05-02 17:51:00
0 跟貼 0

西安交通大學發表最新Nature論文

生物世界 2025-05-01 20:04:07
1 跟貼 1

未知即機遇：如何讓“不確定”成為你的“超能力”

秦朔朋友圈 2025-05-02 00:10:35
1 跟貼 1
量子算力新紀錄，中國科學家默默干了件大事

每日經濟新聞 2025-03-04 21:25:51
0 跟貼 0

DeepSeek再低調開源，網友：R2指日可待！

華爾街見聞官方 2025-04-30 20:52:35
152 跟貼 152

人類改造出量子幽靈，免疫一切物理攻擊，觸之即死

大醬電影 2025-05-01 18:00:00
0 跟貼 0
只花9美元,推理能力暴漲20%!小模型Tina震撼登場,成本縮減260倍

機器之心Pro 2025-04-30 14:55:47
0 跟貼 0

Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0
華羅庚數學競賽題：構造母積子差，裂項相消

大力小學數學 2025-04-28 14:38:00
0 跟貼 0
做實驗不爆破反而沒有成效

錘錘說劇 2025-04-29 08:06:40
1 跟貼 1
物理老師給大家做實驗，展現液體表面張力的效果，網友：這種實驗能最直觀的感受

趣聞小探 2025-05-01 15:07:44
0 跟貼 0
12名工程師，估值190億，AI黑馬的夢幻故事

智東西 2025-01-14 20:23:26
43 跟貼 43
小學數學課外拓展-5年級-第34講共邊模型（2）

維七的教育分享圈 2025-05-01 11:02:09
4 跟貼 4
姚明離任遼籃王朝終結，前籃協主席本土化策略，開啟遼寧籃球輝煌

極度說球 2025-05-02 00:02:46
0 跟貼 0
1064國家理科實驗班招生數學題，解方程。學霸的做法很巧妙

我服子佩 2025-04-29 16:12:53
1 跟貼 1
新·摩爾定律誕生：AI智能體能力每4個月翻一番！智能爆炸在即

新智元 2025-04-30 12:36:59
4 跟貼 4
數學易錯題，結果等于0，可以么？

三樂大掌柜 2025-04-30 14:18:44
1 跟貼 1
數學強化訓練題，求2xy的值是多少，很難解

三樂大掌柜 2025-04-29 15:24:13
1 跟貼 1
后訓練時代如何延續Scaling Law？這是你該讀的LLM后訓練綜述

機器之心Pro 2025-05-01 16:09:12
2 跟貼 2
男生數學差兩分就滿分了，在課間偷偷抹淚沒有一個同學安慰他

重慶焦點 2025-05-01 13:39:13
10 跟貼 10
波音訂單背后的外交棋局：印度貿易策略的重心轉移與影響

誤落風塵 2025-05-01 07:03:41
0 跟貼 0
只要9美元！LoRA+強化學習，DeepSeek 1.5B推理性能暴漲20%

新智元 2025-05-02 12:59:06
1 跟貼 1
第一套人民幣樣本完成，被毛主席駁回重設，主席：印我頭像不合適

等閑故人心變阡 2025-05-02 07:54:57
0 跟貼 0
哥哥輔導弟弟寫作業，氣得連話都不想說，網友：數學這東西很看天賦

趣聞小探 2025-04-30 15:10:30
0 跟貼 0
老師提問數學題，學生一秒答出，關鍵是還正確！

瘋女愛搞笑 2025-05-02 15:06:04
2 跟貼 2
你的每個選擇都在創造新宇宙？另一個“你”可能正和你量子糾纏

穿越科學號 2025-04-30 12:47:15
5 跟貼 5
數學趣味題，計算量非常大，要自己想辦法

三樂大掌柜 2025-04-28 23:12:17
1 跟貼 1
今生積德深厚的人，臉上會有這些標記!快看你有沒有!

詩意鳶尾 2025-05-01 01:19:35
0 跟貼 0
專科生專業選擇指南：避坑與優選

玉辭心 2025-05-02 08:44:55
0 跟貼 0
寶媽分享小寶剛學完數學的狀態，“你的學習生涯才剛開始”，網友：無論什么年齡段學數學都一樣

重慶熱點 2025-04-29 19:35:00
0 跟貼 0
黃仁勛在美國又穿西裝表態：中國是有強大意志的國家

新民周刊 2025-05-02 09:08:09
2235 跟貼 2235
媽媽不信兒子數學16分“沒救”，親自上陣輔導，10分鐘后徹底破防！

青島文藝廣播 2025-05-01 22:15:36
0 跟貼 0
烏美礦產協議文本公布明確烏收益及協議優先級

國際在線 2025-05-01 21:33:09
5284 跟貼 5284
黃仁勛：DeepSeek激發全球推理熱情，推理將消耗100倍更多的算力

財聯社 2025-02-27 12:10:34
0 跟貼 0
誰才是地球上最殘忍的生物？看完這些可怕的實驗，你心中自有答案

位標史探 2025-04-29 07:55:41
0 跟貼 0
數學書里學英語真有你的

番茄追劇君 2025-05-02 19:00:00
1 跟貼 1
致感嘆“勤勞無果”的你：請用「帕累托法則」收回你的時間

一杯咖啡心理 2025-05-01 17:51:39
0 跟貼 0
放假在家感覺心更累了？家長：你們有“同款”操心娃嗎

19樓 2025-05-02 20:07:34
0 跟貼 0
任勇：努力用“數學磚瓦”筑起思維“游樂場”

中國教育新聞網 2025-04-30 19:41:12
0 跟貼 0

量子位

追蹤人工智能動態

10420文章數 176127關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

教育

親子

房產

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

不要思考過程，推理模型能力能夠更強丨UC伯克利等最新研究

「思考」和「無思考」

低資源情況下，NoThinking表現優于Thinking

推理模型依賴于思考過程是“非必要的”

微軟CEO和奧特曼失了和，OpenAI被“斷糧”

27年前承包的"荒沙地"變"天然牧草地" 農戶未退耕獲刑

27年前承包的"荒沙地"變"天然牧草地" 農戶未退耕獲刑

為了湖人的28號秀，森林狼差點沒換來戈貝爾

趙又廷節目中高調撒糖 大贊高圓圓超好

黃仁勛在美國又穿西裝表態，怎么看？

全路況 大格局 前路山海皆坦途

態度原創

一加13T手機維修備件價格公布：換電池199元、屏幕組件990元

多帶孩子出門，可以改命

兒子第一次給后爸寫信，快四十歲的大男人差點繃不住了

火了！一二手房交易量大漲，五一購房窗口期來了！

趙又廷節目中高調撒糖大贊高圓圓超好

全路況大格局前路山海皆坦途