“我們這篇論文可能是目前唯一一篇在推理模型能力上詳細告訴大家到底花了多少錢的論文。”上海科技大學 95 后本科校友、美國南加州大學博士生王上上告訴 DeepTech。
圖 | 王上上(來源:王上上)
近日,他和所在團隊打造出一系列名為 Tina 的小型推理模型,在其中一個數據集上的后訓練成本和評估成本僅為 9 美元,成本相比之前降低 99.6%。而從頭開始復現本次研究中的全部實驗和內容,大約需要 526 美元的成本。
通過高效的訓練流程,他和所在團隊實現了最小化的占用空間,并且只需要極少的硬件資源和預算資源。總的來說,Tina 的主要貢獻在于讓開發由強化學習(RL,Reinforcement Learning)驅動的推理模型變得更加大眾化。
研究中,他們在強化學習中進行了參數更新,以及使用低秩自適應(LoRA,Low-Rank Adaptation)技術,通過在一個 15 億參數的模型上結合低秩自適應與強化學習,讓 Tina 的性能得以媲美那些規模遠超于它的推理模型。
更加重要的是,所需要的計算后訓練成本僅有現有最優(SOTA,State Of The Art)模型所需成本的一小部分。在 AIME24 上,Tina 最多能將推理性能提升 20% 以上,Pass@1 準確率達到 43.33%,這揭示了通過低秩自適應進行高效強化學習推理的驚人效果。
王上上告訴 DeepTech:“目前所有開源方法的花費都非常高,當前最佳模型的最高花費可能達到三四千美元。但是,大部分實驗室沒有這么多經費去做這樣單純的實驗。因此,我們的主要出發點旨在降低消耗,用更省錢的方式為模型帶來推理能力。”
在訓練模型時,王上上等人并不是完整地訓練原有模型,而是額外增加一小部分從而讓模型變強,再把這一部分整合到原有模型以后就會變得非常厲害。這樣一來無需在平臺上存兩個模型,只需要存一個模型即可,因此使用時存儲成本會得到極大降低,從而非常適用于小微型創業企業和學術級實驗室。
他舉例稱:“有一家公司對于我們的成果很感興趣,這家公司的業務是將 AI 模型部署在邊緣設備,他認為我們的技術占內存小、能耗小,這也側面說明了我們的研究符合業界需求。”
與此同時,“Tina”這一名稱也體現了對于極簡主義和效率的追求,亦與高成本效益的小型推理模型的內涵相匹配。“當時我們就想能不能用比較可愛、比較平易近人的方式命名論文,以便讓大家更容易接受,于是使用了‘Tina’這一名字。”王上上表示。
復現最佳 Tina 檢查點成本僅 9 美元
研究中,王上上等人沒有并采用 Qwen-7B/32B、QwQ-32B-preview 這些擁有數百億參數的模型,而是將注意力轉向小型模型。為此,他們使用了有著 15 億參數的 DeepSeek-R1-Distill-Qwen-1.5B。
他們先是從一個基礎模型開始,由于其特定的譜系(DeepSeek/Qwen)和蒸餾過程,因此與同等大小的通用預訓練模型相比,這一基礎模型具有更強的初始推理能力。
正是這一戰略起點讓他們能夠更加嚴格地評估強化學習所帶來的增量推理增強效果,從而能在有一個更有競爭力的基線上,來分離和衡量技術本身的有效性。更重要的是,選擇這樣的架構能夠大幅降低計算成本和經濟門檻。
值得注意的是,本次使用的低秩自適應方法只需訓練極少的新參數,就能修改模型的行為,從而能夠以更具性價比低實現推理能力。
通過此,王上上等人做出了以下三項主要成果:
首先,其證明在與基于相同基礎模型構建的、且經過全參數訓練的 SOTA 基線模型相比時,Tina 模型的性能更具競爭力,在某些情況下甚至更優,最佳 Tina 模型在 AIME24 上的性能甚至能被提高 20% 以上,Pass@1 準確率則能達到 43.33%。
(來源:arXiv)
其次,基于他們對于 Tina 后訓練階段的觀察,其提出了如下假設:低秩自適應方法的有效性和效率,源于其在強化學習環境下能夠快速適應推理格式,同時還能保留基礎模型知識,這一過程比全參數訓練的深度知識整合更具計算效率。此前曾有研究表明:小模型也能實現有效推理,而大模型能夠存儲更廣泛的世界知識。這一區別表明,通過專注于適應輸出格式本身,就能讓模型的推理能力得到顯著提升。為了驗證這一點,他們在強化學習環境中專門訓練了低秩自適應參數。
再次,他們實現了強化學習推理的民主化,本次方法不僅可以被復現而且極具成本效益,這將使更多人在無需耗費大量 GPU 的前提下就能探索強化學習技術。
實際支出遠遠低于原定上限
王上上表示,其所使用的訓練代碼庫主要基于 OpenR1,OpenR1 是 DeepSeekR1 的完全開源復現,結合了 Accelerate 和 Trl 庫以及 DeepSpeed ZeRO 優化。
在訓練超參數時,他們通過復制 OpenR1 和 OpenRS 中的關鍵參數來開始參數選擇,并在實驗中特意采用了默認參數配置或推薦超參數配置。
在訓練硬件上,為了最大限度地減少硬件占用空間,他們通過限制 vLLM 的 GPU 內存使用量,將強化學習訓練過程和 vLLM 部署在相同的兩個 GPU 上,這樣一來就能利用兩個 GPU 之間的數據并行性。雖然在兩個 GPU 上同時運行推理和訓練,可能會導致實際訓練時間比使用專用推理 GPU 的設置更長,但是它能極大地降低硬件需求。
在訓練預算上,其所使用的英偉達 L40S GPU 可以通過商業云平臺訪問。在撰寫此次論文時,每 GPU 小時的費用約為 1 美元,其中包含 300GB 的存儲空間。低秩自適應模型的強化學習訓練過程非常高效,單個強化學習步驟通常不到一分鐘即可完成。在累計六項推理基準測試中,評估一個模型檢查點平均需要 1 個英偉達 L40S GPU 訓練小時。為了控制成本,他們將實驗運行的最大保守預算設為 100 美元,這一預算涵蓋了從訓練、到評估以及雜項任務的所有階段。而在實驗中,他們發現實際的支出遠遠低于這一上限。
幾乎所有 Tina 模型均顯著優于基線平均分數
在最終展示 Tina 的表現之前,需要與現有 SOTA 推理模型進行公平且可靠的對比。為了減輕一些混雜因素的影響,所有基線評估均利用了與 vLLM 推理引擎集成的 lighteval 框架,以便實現高效生成。為了與 OpenR1 等已有工作保持可比性,他們讓硬件配置保持固定,即均使用兩個英偉達 L40S GPU,并在所有評估的基線模型中使用一套標準化的 vLLM 推理參數。與此同時,所有分數均為零樣本 pass@1 性能。
隨后,他們通過六項基準測試來比較 Tina 模型和基線模型的推理能力。所有實驗均使用基于低秩自適應的強化學習方法,并針對 DeepSeek-R1-Distill-Qwen-1.5B 模型進行最小參數更新的后訓練,以便評估模型的推理能力。
盡管使用參數高效調優會面臨著固有的資源限制,但是依然可以實現顯著的推理性能,正因此 Tina 模型與基線模型的性能相當,甚至優于后者。
對于每個 Tina 模型,王上上都報告了完整的訓練程度,既報告了在一個周期內所占預定義訓練步驟的百分比,也報告了在每個任務上取得的百分比分數。
結果發現:所有 Tina 模型均表現出顯著的推理能力,平均得分在 48.16% 至 50.60% 之間。幾乎所有 Tina 模型的表現都顯著優于相應的基線平均分數,這表明參數高效強化學習能夠顯著提升性能。其中,Tina-Open-RS2 模型取得了 50.60% 的最高平均表現。
事實上,這些結果是在訓練時長極為有限的情況下取得的,僅占完整訓練周期的 19% 至 57%。這些結果有力佐證了本次研究的核心假設:即通過定向使用低秩自適應與強化學習,能在小型語言模型中高效且經濟地訓練出強大的推理能力。
低秩自適應的“少即是多”
研究中,他們還進行了基于低秩自適應的“少即是多”強化學習。為了理解低秩自適應為何能通過強化學習促進有效且高效的推理改進,他們分析了訓練計算量與性能之間的關系以及訓練動態。
如下圖所示,將推理性能與近似訓練浮點運算次數(FLOPs,Floating Point Operations)進行對比,全參數訓練方案與基于低秩自適應的訓練方案形成了鮮明對比。
(來源:arXiv)
研究中,他們發現在推理得分上,基于低秩自適應的 Tina 模型可以與完全微調的基線模型相媲美,甚至更優。同時,在某些情況下所需的訓練浮點運算次數要少幾個數量級。
其還觀察到,在低秩自適應模型中,增加訓練計算量反而會對性能產生負面影響,這一特點與全參數模型相反,同時這一結果也凸顯了“計算量減少,性能提升”的現象。
王上上認為,低秩自適應之所以在此場景中表現出色,是因為低秩自適應非常擅長在參數變化極小的情況下學習這些結構和風格模式,因此所需的浮點運算次數非常少。同時,由于低秩自適應僅僅修改了一小部分權重,所以它能在很大程度上保留基礎模型豐富的預訓練知識。
由此可見,低秩自適應能夠高效地教會模型如何將其現有知識轉化為有效的推理軌跡,從而無需像大量全參數更新那樣,需要進行代價高昂的概念學習或程序學習。
當問及王上上他所在課題組的 GPU 資源情況,他表示:“相比國內我們并沒有擁有太多 GPU,這也是我們做 Tina 的一個主要出發點。在國外就算是非常厲害的學校也只有個別組的 GPU 資源會特別充裕,大多數課題組的 GPU 資源都很有限。所以我們認為從大眾情況考慮,在做實驗和做訓練時還是要采用低功耗的方式。”
他繼續表示:“Tina 是我們大項目中的第一步。未來,我們將繼續研究為什么 Tina 的推理能力能這么好,只有這樣才能更安心地使用 AI 技術和 AI 模型。”
參考資料:
相關論文:https://arxiv.org/pdf/2504.15777
相關代碼:https://github.com/shangshang-wang/Tina
訓練日志:https://wandb.ai/upup-ashton-wang-usc/Tina
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.