99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

不要思考過程,推理模型能力能夠更強丨UC伯克利等最新研究

0
分享至

衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI

其實……不用大段大段思考,推理模型也能有效推理!

是不是有點反常識?因為大家的一貫印象里,推理模型之所以能力強大、能給出準確的有效答案,靠的就是長篇累牘的推理過程。

這個過程往往用時很長,等同于需要消耗大量算力。已經有一些研究嘗試提高推理效率,但大多仍依賴顯式思考過程。

來自UC伯克利和艾倫實驗室團隊的最新研究結果打破了這一刻板印象——

通過簡單的prompt繞過「思考」這一過程直接生成解決方案,可能同樣有效,甚至更好。

這種方法被稱為“無思考(NoThinking)”方法



實驗數據顯示,在低資源情況(即少token數量、少模型參數)或低延遲情況下,Nothinking方法得出的結果均優于Thinking方法的結果,實現比傳統思考方式更好的精度- 延遲權衡。

其他情況下,NoThinking方法在部分數據集上的表現也能超越Thinking。

「思考」和「無思考」

研究團隊以DeepSeek-R1-Distill-Qwen模型為基礎,提出了NoThinking方法。

咱們先來分辨一下Thinking和NoThinking的區別在哪里。



Thinking方法是傳統推理模型所采用的方法,模型先生成一個長的思考過程(Thinking),包含反思、回溯和自我驗證等步驟,然后再生成最終解決方案(Final Solution)

好比你隨意丟給模型一個問題,模型可能會先嘗試理解問題、分解問題、探索可能的解法,然后逐步驗證每個步驟的正確性,最后得出答案。



而研究人員最新提出的NoThinking方法,則通過簡單的prompt直接讓模型跳過顯式的思考過程

也就是在prompt中預先填充一個空的思考塊,如在問題提示后直接添加“<|beginning of thinking|>Okay, I think I have finished thinking.<|end of thinking|>”,然后讓模型直接從這個空思考塊開始生成最終解決方案。

例如,在問題提示后直接添加一個表示思考結束的標記,然后讓模型生成答案。



截至目前,Thinking是大多數推理模型默認的推理方式。

但NoThinking團隊十分質疑這個過程的必要性。

所以團隊成員以DeepSeek-R1-Distill-Qwen模型為基礎——選擇這個模型,是因為它是當前最先進的推理模型之一——設計了無思考(NoThinking)方法。

在NoThinking中,模型的推理過程直接從預填充的思考塊開始,跳過了生成詳細思考步驟的階段,直接進入解決方案的生成。

這意味著模型不需要花費時間來構建和輸出思考過程,從而減少了生成的token數量,提高了推理速度。

低資源情況下,NoThinking表現優于Thinking

研究人員將NoThinking與Thinking方法在相同的模型和數據集上進行對比實驗。

試圖通過控制token數量、模型參數等變量,比較兩種方法在不同任務上的準確性和效率差異。

他們選用了多個推理數據集來評估模型性能,這些數據集涵蓋了不同的推理任務類型和難度級別,能夠全面評估模型的推理能力:

包括數學問題解決(如AIME、AMC)、編程(LiveCodeBench)和形式定理證明(MiniF2F、ProofNet)等。

評估指標方面,則主要使用pass@k指標來衡量模型性能。pass@k表示的是“在生成的k個樣本中至少有一個正確答案的概率”。

此外,實驗過程還關注了token使用量和延遲等指標,以評估模型在資源消耗和響應速度方面的表現。

最后的實驗結果怎么樣?

綜合表現如圖所示,這是無token預算下的最終結果:



這是有token預算下的最終結果:



數學問題解決

相同token預算下,在AIME和AMC等數學問題數據集上,NoThinking通常比Thinking表現更好。

例如,在ACM23數據集上,當token數量限制為700時,NoThinking的準確率是51.3%,顯著高于Thinking的28.9%。

這表明在數學推理任務中,直接生成解決方案可能比詳細思考更有效(尤其是在資源受限的情況下)

形式定理證明

在MiniF2F和ProofNet數據集上,NoThinking在pass@k指標上與Thinking相當,但使用的token數量顯著減少(3.3–3.7倍)

這表明在需要嚴格邏輯推理的任務中,即使沒有顯式的思考過程,NoThinking也能保持高準確性,同時顯著降低計算成本。

編程任務

在LiveCodeBench數據集上:

  • 在低token預算下,NoThinking表現優于Thinking
  • 在高token預算下,Thinking有時表現更好

這表明在編程任務中,思考過程可能在資源充足時提供一定優勢;但資源受限時,NoThinking的效率更高。

NoThinking的pass@k性能

隨著k值(生成的樣本數量)增加,NoThinking的pass@k性能通常會超過Thinking。

這表明NoThinking生成的解決方案多樣性更高,能夠通過多次采樣提高準確性。



一個典型的例子體現在AIME24數據集上——

當k=64時,NoThinking在相同token預算下的pass@64準確率顯著高于Thinking。

這表明NoThinking在多次嘗試中更有可能找到正確答案。



并行擴展實驗

實驗過程中,團隊進一步探索了NoThinking與并行計算擴展結合的潛力。

通過同時生成多個輸出并進行聚合(如最佳選擇策略),評估這種方法在提高性能和降低延遲方面的效果。

實驗結果表明,在結合并行擴展時,NoThinking表現出了顯著的性能提升。

對于有Verifier的任務(如MiniF2F和ProofNet),NoThinking結合并行擴展可以實現與Thinking相當甚至更高的準確率,同時將延遲降低7倍,token使用量減少4倍。

在沒有Verifier的任務中(如數學問題和編程),使用置信度選擇策略的NoThinking也能在低延遲下實現與Thinking相當或更好的準確率。

例如,在AMC2023數據集上,NoThinking在并行擴展下比Thinking快9倍,同時準確率更高。

總體而言,通過同時生成多個輸出并選擇最佳答案,NoThinking在延遲和token使用量上都優于Thinking。

推理模型依賴于思考過程是“非必要的”

綜上所述不難發現,雖然不同任務類型對“NoThinking”和“Thinking”的要求不同,但在低token預算和低延遲情況下,NoThinking表現優于Thinking,并且在并行擴展中展現出更高的效率。

NoThinking方法在多個推理任務中表現出了令人驚訝的有效性表示:

即使跳過了顯式的思考過程,模型依然能夠生成準確的解決方案

NoThinking方法證明了“推理模型依賴于思考過程”的非必要性。換句話說,可能存在更高效的方式來實現強大的推理性能,而不依賴于冗長的思考過程。

這與目前普遍認為推理模型需要詳細思考過程才能有效工作的觀點相悖。

面對這個結果,不少吃瓜群眾表達了自己的看法。

有贊成者,比如ExtensityAI的聯合創始人兼CTO就表示,這一點也不令人意外。

  • 考慮到蒸餾過程,這個結果并不奇怪——學生可以在微調過程中內化老師的推理,并在推理時提供一條“捷徑”。



但也有人表示NoThinking看似可以省略推理過程,但其實要耗費大量人工時間來實現:

結果雖如此,但實際操作里到底有誰會耐心從k個答案里去挑選最佳的那個啊??



不管怎么說,Nothinking還是帶給大家一個新視角,往后推理模型的優化,可以朝更簡單有效的方向嘗試看看。

或許有一天,大家在等推理模型吐精準答案的時候,也不用焦慮地等待那么久了~

參考鏈接:
[1]https://arxiv.org/pdf/2504.09858
[2]https://x.com/rohanpaul_ai/status/1916693352923496477

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
拉基蒂奇:亞馬爾進不了梅西、蘇亞雷斯、內馬爾那支巴薩的首發!

拉基蒂奇:亞馬爾進不了梅西、蘇亞雷斯、內馬爾那支巴薩的首發!

歷史第一人梅西
2025-05-01 16:24:27
日本2025年應屆生平均起薪1.3萬元人民幣,創歷史新高!平均起薪比2024年度增長4.9%

日本2025年應屆生平均起薪1.3萬元人民幣,創歷史新高!平均起薪比2024年度增長4.9%

和訊網
2025-04-30 14:44:06
再不談就晚了?印軍凌晨開火,巴鐵亮出中國導彈,美俄罕見一致

再不談就晚了?印軍凌晨開火,巴鐵亮出中國導彈,美俄罕見一致

阿芒娛樂說
2025-04-28 21:06:23
紅軍勝利會師后,周總理問賀龍:以后誰來統一指揮大軍?

紅軍勝利會師后,周總理問賀龍:以后誰來統一指揮大軍?

史小紀
2025-05-02 12:40:50
2025養老金漲幅揭曉!3%穩了?低收入者偷笑:我們多漲1.2%!

2025養老金漲幅揭曉!3%穩了?低收入者偷笑:我們多漲1.2%!

小鹿姐姐情感說
2025-05-02 13:39:34
媒體人:王鈺棟是國內近30年天賦新星天花板,或替代武磊國足位置

媒體人:王鈺棟是國內近30年天賦新星天花板,或替代武磊國足位置

雷速體育
2025-05-01 23:37:46
太適合廣東隊!CBA“暴力控衛”正式崛起,朱芳雨為他交易徐杰?

太適合廣東隊!CBA“暴力控衛”正式崛起,朱芳雨為他交易徐杰?

緋雨兒
2025-05-02 11:00:57
考古隊打開光緒陵墓后,為何集體下跪?手套上的痕跡給出了答案

考古隊打開光緒陵墓后,為何集體下跪?手套上的痕跡給出了答案

大千世界觀
2025-04-23 15:55:20
前TVB女星東莞打工 接廣告自嘲“把自己賣了”

前TVB女星東莞打工 接廣告自嘲“把自己賣了”

看看新聞Knews
2025-05-02 11:57:59
國際金價單日暴跌71.78美元,國內金店零售價全面下調,抄底?

國際金價單日暴跌71.78美元,國內金店零售價全面下調,抄底?

藍色海邊
2025-05-02 04:35:35
剛剛!港股大漲!恒生科技指數漲幅擴大至3%,港股汽車股多數走強

剛剛!港股大漲!恒生科技指數漲幅擴大至3%,港股汽車股多數走強

21世紀經濟報道
2025-05-02 11:40:04
李蘭迪和張新成分手了?

李蘭迪和張新成分手了?

毒舌八卦
2025-05-02 14:35:43
山東一景區怕游客趕不到海,一下午撒3000斤蛤蜊!工作人員:給游客提供情緒價值,不能空手而歸

山東一景區怕游客趕不到海,一下午撒3000斤蛤蜊!工作人員:給游客提供情緒價值,不能空手而歸

930老友記
2025-05-02 12:51:40
1-0!申花后防失誤,成都外援“誤打誤撞”進球,韋世豪逃紅牌

1-0!申花后防失誤,成都外援“誤打誤撞”進球,韋世豪逃紅牌

汪星人喲
2025-05-02 20:29:35
中國向世界權威宣告,新冠是美惡意制造傳播,必須給全球還個公道

中國向世界權威宣告,新冠是美惡意制造傳播,必須給全球還個公道

影孖看世界
2025-05-02 20:06:24
造車新勢力大洗牌!

造車新勢力大洗牌!

電動知家
2025-05-02 20:29:11
3連鞭到手,連得197分!火箭大逆轉,趙心童啞火,連續2局被零封

3連鞭到手,連得197分!火箭大逆轉,趙心童啞火,連續2局被零封

劉姚堯的文字城堡
2025-05-01 21:47:43
美一錘定音,75歲老將任駐華大使,人還沒到中國,先下2道挑戰書

美一錘定音,75歲老將任駐華大使,人還沒到中國,先下2道挑戰書

獵火照狼山
2025-05-01 21:38:44
因尺度大爆火,這5部成人美劇建議收藏

因尺度大爆火,這5部成人美劇建議收藏

來看美劇
2025-03-16 20:38:07
烏克蘭失蹤女記者羅什奇娜遺體被發現,生前遭俄軍酷刑折磨致死

烏克蘭失蹤女記者羅什奇娜遺體被發現,生前遭俄軍酷刑折磨致死

國際情爆猿
2025-05-01 10:01:17
2025-05-02 21:04:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10420文章數 176127關注度
往期回顧 全部

科技要聞

微軟CEO和奧特曼失了和,OpenAI被“斷糧”

頭條要聞

27年前承包的"荒沙地"變"天然牧草地" 農戶未退耕獲刑

頭條要聞

27年前承包的"荒沙地"變"天然牧草地" 農戶未退耕獲刑

體育要聞

為了湖人的28號秀,森林狼差點沒換來戈貝爾

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態度原創

手機
教育
親子
房產
公開課

手機要聞

一加13T手機維修備件價格公布:換電池199元、屏幕組件990元

教育要聞

多帶孩子出門,可以改命

親子要聞

兒子第一次給后爸寫信,快四十歲的大男人差點繃不住了

房產要聞

火了!一二手房交易量大漲,五一購房窗口期來了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 白银市| 海城市| 甘肃省| 龙泉市| 从化市| 法库县| 古丈县| 平顺县| 余江县| 盐边县| 精河县| SHOW| 祥云县| 河南省| 子长县| 方山县| 饶河县| 建宁县| 福建省| 淄博市| 唐河县| 三亚市| 雷波县| 桦南县| 临猗县| 梧州市| 临邑县| 高邮市| 鹿泉市| 泰顺县| 武强县| 家居| 宁陕县| 理塘县| 高青县| 彰化县| 巫山县| 崇仁县| 山西省| 罗田县| 莱芜市|