“是我想太多,你總這樣說”
李玖哲的《想太多》表達了對愛情的疑惑和不安。
歌詞中主角感覺對方心中已有他人,盡管對方試圖解釋,主角依然心亂如麻。
現在AI推理模型有時也會想太多,努力的樣子仿佛害怕失去什么。
2025年5月19日,新加坡國立大學研究團隊發表最新研究Thinkless,就像是給"內耗"的AI朋友配了一個心理咨詢師,教會它什么時候該深度思考,什么時候可以快速回答。
AI的"思考困擾":能力強但太費勁
我有一個超級聰明的朋友,但他有個小毛病:無論你問他什么問題,哪怕是"1+1等于幾",他都要絞盡腦汁思考半天,從數學起源講到哲學思辨,最后才告訴你答案是2。聽起來很搞笑,但這正是目前許多AI推理模型面臨的問題。
這種"過度思考"會帶來三個主要問題。首先是計算成本問題,就像開著跑車去買菜一樣,大材小用。其次是響應速度問題,用戶可能只想要個簡單答案,卻要等AI"思考"很久。最后是資源浪費,服務器要處理大量不必要的計算,就像用鍋爐燒水泡一杯茶一樣不經濟。
研究團隊發現,在一些基礎數學題上,推理模型生成的文本長度通常是標準模型的5到20倍。顯然,我們需要一個更聰明的解決方案。
混合推理的困境:什么時候該動腦筋?
面對這個問題,研究人員們想到了一個很自然的解決方案:讓AI學會混合推理,也就是根據問題的難易程度來決定是簡單回答還是深度思考。
然而,這個看似簡單的想法卻遇到了一個核心難題:AI怎么知道什么時候該動腦筋呢?這就像讓一個人在收到問題的瞬間就判斷出是否需要深度思考一樣困難。
以往的研究嘗試了各種方法來解決這個問題。有些研究者設計了固定的計算預算,就像給AI設定一個思考時間限制;有些則使用提示詞控制,比如在問題前加上需要推理或不需要推理的標簽。但這些方法都依賴人工設計的規則。
判斷是否需要深度推理實際上涉及三個關鍵因素。
第一個是問題的復雜程度,簡單的算術題當然不需要復雜推理,但涉及多步驟的邏輯問題就需要仔細思考。
第二個是AI模型自身的能力,能力強的模型可能不需要詳細推理就能解決某些問題,而能力弱的模型可能需要更多思考步驟才能確保準確性。
第三個是用戶對效率和準確性的權衡偏好,有時候用戶愿意接受略低的準確率來換取更快的響應速度。
就像是在開車時需要同時考慮路況復雜度、自己的駕駛技術,以及乘客對速度和安全的偏好一樣。顯然,我們需要一個能夠自動學習和適應的智能系統,而不是依賴固定規則的簡單程序。
Thinkless框架:讓AI學會"察言觀色"
研究團隊提出的Thinkless框架就像是給AI配備了一個智能的"思考開關"。
Thinkless使用了兩個特殊的信號燈:和。當AI決定問題比較簡單時,它會亮起信號燈,然后給出簡潔的回答;當它認為問題需要仔細思考時,就會亮起信號燈,然后展開詳細的推理過程。這就像是交通燈系統,綠燈快行,紅燈慢行,讓整個過程井然有序。
整個訓練過程分為兩個階段。第一階段是"模仿學習",研究團隊讓AI觀察兩位"老師"的表現:一位是擅長詳細推理的"思考老師",另一位是擅長給出簡潔答案的"直覺老師"。通過觀察這兩位老師如何處理不同類型的問題,AI學會了兩種不同的回答方式。
第二階段是"強化學習",就像讓學生在實際練習中不斷改進。AI會嘗試處理各種問題,根據回答的正確性和效率獲得不同的"獎勵分數"。如果它能用簡短回答正確解決問題,就會獲得最高分;如果需要詳細推理才能答對,分數會稍低一些;如果答錯了,無論用哪種方式都會被扣分。通過這種反饋機制,AI逐漸學會了在合適的時候選擇合適的推理模式。
DeGRPO解耦式強化學習:解決訓練中的"偏科"問題
在訓練過程中,研究團隊遇到了一個意想不到的技術挑戰,就像學生存在的"偏科"現象。傳統的訓練方法會讓AI出現嚴重的模式偏好,要么總是選擇簡單回答,要么總是選擇復雜推理,就像一個學生要么什么題都不思考直接猜答案,要么什么題都要思考半天。
這個問題的根源在于訓練過程中的"不平衡"現象。想象一下這樣的情況:AI在學習過程中,對于每個問題,它需要先決定用哪種模式(這相當于一個選擇),然后生成具體的回答內容(這可能包含幾十到幾百個詞)。在傳統的訓練方法中,這一個選擇的"聲音"很容易被幾百個詞的"聲音"掩蓋,就像在一個嘈雜的音樂會上,臺下觀眾的一聲吶喊很難被臺上的演奏者聽到。
更糟糕的是,詳細推理的回答通常比簡潔回答長得多,這就進一步加劇了不平衡。這就像是在投票時,詳細回答有幾百票,簡潔回答只有幾票,但實際上做選擇的權重應該是相等的。結果就是AI在訓練早期就會"偏科",要么完全偏向簡潔回答,要么完全偏向詳細推理,失去了靈活選擇的能力。
為了解決這個問題,研究團隊開發了一種叫做"解耦式群體相對策略優化"(DeGRPO)的新方法。這個名字聽起來很復雜,但原理其實很簡單,就像是在音樂會上給臺下觀眾配備擴音器,確保他們的聲音能被臺上聽到。
具體來說,新方法將訓練過程分為兩個獨立的部分:一部分專門負責學習"什么時候該選擇哪種模式",另一部分專門負責學習"如何生成更好的回答內容"。這就像是分別訓練一個決策者和一個執行者,決策者專門負責判斷情況并做選擇,執行者專門負責按照選擇來完成具體任務。
通過這種分離式訓練,系統可以確保模式選擇的學習不會被內容生成的學習所掩蓋。研究團隊還引入了一個平衡參數α,就像是音量調節器,可以調整決策學習和內容學習的相對重要性。在他們的實驗中,將α設置為1/1000時取得了最佳效果,這意味著給模式選擇學習適當的"放大",確保它不會被內容學習的聲音淹沒。
實驗結果:效率提升的亮眼表現
研究團隊在多個數學數據集上測試了Thinkless系統的表現,結果相當不錯。
在測試中,研究團隊使用了DeepSeek-R1-Distill-Qwen-1.5B作為基礎模型。他們在四個不同難度的數學數據集上進行了測試:從相對簡單的GSM8K小學數學題,到中等難度的Minerva代數和MATH-500題目,再到極具挑戰性的AIME競賽題。
測試結果顯示,Thinkless在保持解題準確率的同時,大幅減少了過度思考的情況。在GSM8K數據集上,系統僅對13.3%的問題啟用了詳細推理模式,這意味著超過86%的簡單數學題都能快速解決,生成的文本長度從原來的1919個token減少到624個token,效率提升了約67%。原本需要寫一頁紙的解答過程,現在只需要幾行字就能搞定。
在中等難度的Minerva代數測試中,系統對25.9%的問題使用了詳細推理,準確率保持在94.6%的高水平,而生成的文本長度從3029個token壓縮到1144個token,效率提升超過60%。這表明系統能夠很好地識別哪些代數問題需要step-by-step的詳細推理,哪些可以直接求解。
最有趣的是在不同難度數據集上的自適應表現。在最困難的AIME競賽題上,系統"聰明地"對所有問題都啟用了詳細推理模式,因為這類題目確實需要深度思考才能解決。而在相對簡單的GSM8K上,系統則表現出明顯的"省力"傾向,大部分題目都用簡潔方式解決。這種自適應能力就像是一個經驗豐富的老師,知道什么時候需要詳細講解,什么時候學生一點就通。
與其他方法相比,Thinkless的優勢更加明顯。傳統的模型合并方法雖然也能減少推理長度,但往往以犧牲準確率為代價。而基于路由器(Router)的混合方法雖然思路相似,但由于缺乏對目標模型能力的深入了解,在復雜問題上的判斷準確性較差。
Thinkless的另一個獨特優勢是它的"一體化"特性。不像需要兩個獨立模型的路由器方案,Thinkless將決策和執行集成在一個模型中,既減少了系統復雜度,又確保了決策和能力的完美匹配,就像是左右手的默契配合。
訓練過程的有趣發現:AI學習的"U型曲線"
在研究Thinkless的訓練過程時,團隊發現了一個特別的現象,他們稱之為"U型學習曲線"。
在訓練初期,AI表現得像一個缺乏自信的新手。由于對自己的簡潔回答能力還不夠確信,它傾向于選擇詳細推理模式來"保險起見"。剛學會開車的人,即使在空曠的停車場也會小心翼翼地慢慢開,不敢貿然提速。在這個階段,大約70-80%的問題都會被AI選擇用詳細推理來處理。
然而,隨著訓練的進行,一個轉折點出現了。AI開始發現,通過強化學習的反饋,它的簡潔回答能力在不斷提升,能夠正確解決越來越多的問題。同時,它也逐漸學會了識別哪些問題適合用簡潔方式處理。新手司機逐漸積累了經驗和信心,開始能夠根據路況來調整駕駛方式。
到了訓練后期,AI變得越來越"聰明"和"自信"。它發現許多原本以為需要詳細思考的問題,實際上用簡潔方式就能準確解決。于是,簡潔模式的使用比例開始顯著上升,形成了U型曲線的右側上升部分。老司機,知道什么時候可以放心提速,什么時候必須謹慎慢行。
這個U型學習曲線揭示了AI學習混合推理的內在邏輯:從保守的"全面推理",到逐漸建立的"選擇性推理",最后到成熟的"智能推理"。整個過程體現了AI從簡單模仿到智能決策的能力進化。
與此對照,傳統的強化學習方法往往會出現模式崩潰現象,學生要么完全不思考,要么過度思考,無法找到平衡點。而Thinkless的解耦訓練方法成功避免了這個問題,讓AI能夠平穩地經歷這個學習過程。
技術細節:從理論到實踐的巧妙設計
Thinkless系統的成功不僅在于其核心理念,更在于許多精妙的技術設計細節。
首先是獎勵機制的設計。研究團隊創造了一個簡單而有效的評分系統:如果AI用簡潔方式答對了,得1分;如果用詳細推理答對了,得0.9分(其中γ=0.1是一個小的懲罰因子);如果答錯了,無論用什么方式都是-1分。類似于在鼓勵學生能簡則簡,但不會因為追求簡潔而犧牲準確性。
在模型初始化方面,研究團隊采用了"知識蒸餾"的方法。他們讓兩個"老師模型"分別演示簡潔回答和詳細推理的方式,然后讓Thinkless學習模仿這兩種風格。這就像是讓一個學生同時觀察兩位不同風格的老師上課,一位擅長要點總結,另一位擅長詳細講解,然后學會在適當時候使用適當的風格。
具體來說,他們使用DeepSeek-R1-671B作為"推理老師",這是一個專門優化了多步推理能力的大型模型。而Qwen2.5-Math-1.5B-Instruct則作為"簡潔老師",這是一個專門為簡潔數學回答優化的緊湊模型。通過讓Thinkless在相同的問題上觀察這兩位老師的不同回答方式,它學會了兩種互補的解題風格。
在解耦訓練的實現上,研究團隊引入了平衡參數α。這個參數的作用就像是音響系統中的均衡器,可以調節不同頻段的音量。在他們的實驗中,α=1/1000的設置達到了最佳效果,這意味著模式選擇的學習信號被適度放大,但不會壓倒內容生成的學習。
訓練環境的配置也經過了精心優化。整個系統在4張H100 GPU上訓練,熱身階段的最大上下文長度設為16K,強化學習階段擴展到24K。批次大小設為128,每個查詢采樣8個回答,總共產生1024個訓練樣本。這種配置在計算效率和學習效果之間找到了最佳平衡點。
特別值得一提的是訓練數據的構建。研究團隊使用了約40K個標記樣本的DeepScaleR數據集進行強化學習訓練。這個數據集涵蓋了從基礎算術到高級數學競賽的各種難度級別,為AI提供了豐富的學習場景。
實際應用中的表現:從數據到直觀感受
為了讓人們更直觀地理解Thinkless的實際表現,研究團隊展示了一些具體的案例分析。
(1)簡單的算術問題:"7、2、x和10的算術平均數是9,x的值是多少?"
Thinkless給這個問題分配了極低的詳細推理概率(0.003534),幾乎立即選擇了簡潔模式。
(2)中等難度的問題:"求向量a在向量b上的投影,其中b=(2,6,3),且a·b=8"
系統給出了0.504883的推理概率,正好處于中間地帶。這種情況下,AI會根據當時的心情(實際上是模型的隨機性)來決定用哪種方式回答。
(3)復雜的問題:一個涉及多項式根和復雜集合的高級數學問題
系統會給出1.0的推理概率,意思是"必須仔細思考"。這種判斷展現了AI對問題復雜度的準確感知能力。
在不同數據集上的自適應表現很有說服力。在最困難的AIME數據集上,系統"聰明地"對所有問題都啟用詳細推理,因為這些問題確實需要深度思考。而在相對簡單的數據集上,系統則展現出明顯的效率優化傾向。
局限性與未來展望:完美之路上的下一步
盡管Thinkless取得了令人矚目的成果,但研究團隊也坦誠地指出了當前方法的一些局限性。
首先是熱身階段的優化空間。目前的研究主要驗證了基本的監督學習方法,但沒有進行深入的參數調優來達到最佳性能。研究團隊認為,通過更精細的模型合并技術或輕量級微調方法(如LoRA),可能能夠進一步提升系統的初始性能。
數據集的廣度也是一個需要改進的方面。目前的驗證主要集中在數學問題上,雖然使用了包含40K問題的DeepScaleR數據集,但要構建真正通用的混合推理系統,還需要擴展到更多樣化的領域。
至頂AI實驗室洞見
從24年9月的OpenAI o1模型到25年1月的DeepSeek R1模型,推理模型逐漸被越來越多用戶關注和使用。
有人甚至從此只用推理模型,認為以前的對話模型應該被淘汰了,卻忽略了推理模型的三大問題:計算成本高、響應時間長、存在資源浪費。推理模型的問題恰好是對話模型的優點。
混合推理模型因此誕生了。
5月初,阿里的千問團隊發布的Qwen3模型,也是能在思考模式和非思考模式之間切換的混合模型,這方面千問走在了最前沿。
2025年也許還不是混合推理模型的時代,因為很多AI公司還處于未盈利狀態,可能對于他們來說目前成本不是最重要的,市場占有率才是。但我們相信混合推理一定是AI可持續發展(Sustainable AI)或者綠色AI的必經之路。
論文地址:https://arxiv.org/abs/2505.13379
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.