4月4日訊,人工智能領域的競爭從未停歇,而中國 AI 明星企業 DeepSeek 最新發布的論文《Inference-Time Scaling for Generalist Reward Modeling》(通用獎勵模型的推理時間擴展)無疑為這場角逐再添一把火。這篇論文不僅展示了一種通過增加推理計算量提升模型性能的新思路,還讓人不禁猜測:備受期待的 DeepSeek R2 模型可能已近在咫尺。
突破常規的“推理時間”革命
大型語言模型的訓練通常依賴海量數據和高昂算力,而在訓練過程中獎勵模型扮演著至關重要的角色,它為強化學習提供反饋信號,幫助模型優化輸出。然而,傳統的獎勵模型通常針對特定領域(如數學問題或規則明確的游戲)設計,難以適應多樣化的通用查詢。此外,隨著推理任務復雜性的增加,如何在推理階段有效利用計算資源(即推理時間擴展,Inference-Time Scaling)成為一個亟待解決的問題。
OpenAI 的 o1 系列模型率先展示了推理時間擴展的潛力,通過延長推理過程中的“思維鏈”(Chain-of-Thought, CoT),顯著提升了數學、編碼等任務的性能。然而,如何將這一思路推廣到通用獎勵建模,并設計出高效、可擴展的解決方案,仍是研究領域的空白。
DeepSeek 的這篇論文正是在此背景下應運而生。研究團隊的目標是探索“通用獎勵模型的推理時間擴展”,即如何通過增加推理計算量提升獎勵模型在各種任務中的表現,同時避免傳統方法在訓練資源上的過度依賴。論文提出了一種名為 DeepSeek-GRM 的模型,并結合創新的訓練方法和推理策略,為這一領域提供了新的思路。
圖3:SPCT的示意圖,包括拒絕性微調、基于規則的強化學習以及推理過程中相應的可擴展行為。通過簡單投票或元RM引導投票,利用大規模生成的原則實現推理時的擴展,從而在擴展的價值空間內產生更細粒度的結果獎勵。
論文中,DeepSeek 推出了名為 DeepSeek-GRM 的新模型,搭配一種創新的訓練方法“自原則批評調優”(SPCT)。這套組合拳讓模型能在推理時動態調整輸出,確保對各種復雜問題的回答更精準、更可靠。更令人興奮的是,團隊還設計了一個“元獎勵模型”來協調多個候選答案,確保質量隨著計算量的增加而穩步提升。
圖1:在所有測試的RM基準上,使用不同RM進行推理時的性能擴展。結果展示了每種方法最多8個樣本的情況,并且我們的結果進一步擴展到了32個樣本。非斜體字體表示基于Gemma-2-27B的模型。
DeepSeek-GRM 的成功并非偶然,而是建立在一套巧妙的技術組合之上。核心在于它跳出了傳統獎勵模型的窠臼,采用了生成式評分方式(GRM),讓模型能靈活應對各種任務,而非簡單地比較優劣。與此同時,“自原則批評調優”(SPCT)讓模型學會自我反省,通過強化學習不斷優化判斷,減少對人工干預的依賴。
推理時,DeepSeek-GRM 還能并行生成多個答案,再由“元獎勵模型”從中挑出最佳方案,這種多線程操作讓性能隨著計算資源增加而顯著提升。受 OpenAI o1 的啟發,模型還融入了動態調整的“思維鏈”,根據問題難度靈活分配思考時間。這些創新共同打造了一個既聰明又高效的系統,展現了推理時間擴展的巨大潛力。
數據說話:性能超預期
實驗結果顯示,DeepSeek-GRM 在多個測試中擊敗了傳統方法,尤其是在需要復雜推理的任務上表現搶眼。比如,與那些只靠訓練階段堆砌資源的模型相比,DeepSeek-GRM 在相同預算下往往能交出更優的答卷。更重要的是,這種方法的擴展性極強——只要多給它一點“思考時間”,性能就能持續攀升。
表2:不同方法和模型在RM基準上的綜合結果。下劃線數字表示最佳性能,粗體數字表示在基準方法和我們的方法中的最佳性能,斜體字體表示標量或半標量RM。對于元RM引導投票(MetaRM),k_meta = 1/2 * k。
這一發現可能會改變游戲規則,它意味著未來的 AI 不一定需要無底洞般的訓練成本,而是可以通過推理階段的優化實現突破。
R2 的影子?
DeepSeek 的這篇論文來得正是時候。去年,其 R1 模型以開源姿態震撼業界,迅速成為開發者社區的寵兒。而隨著推理時間擴展技術的亮相,外界普遍猜測,DeepSeek 可能正在為下一代模型——傳聞中的 R2——鋪路。如果 R2 真的整合了這種技術,它或許能進一步以更低的訓練成本挑戰 OpenAI 的 o1 系列,甚至在某些任務上實現“以小博大”的逆襲。
DeepSeek 的節奏非常快,從 R1 到現在的論文,他們顯然在加速迭代。R2 如果能把推理時間擴展做到極致,可能會重新定義性價比的標桿。
下一步是什么?
與以往一樣,DeepSeek 再次承諾將 DeepSeek-GRM 開源。這一舉動不僅延續了其“技術普惠”的品牌形象,也為全球開發者提供了一個低門檻的實驗平臺。不過,論文也坦言,這項技術并非完美無缺——在處理極端復雜問題時,模型仍有改進空間。
盡管 DeepSeek 尚未正式公布 R2 的發布時間表,但這篇論文無疑點燃了業界的期待。AI 競賽的下一幕,或許就藏在這套“多想幾步”的技術背后。正如一些國外媒體所言:“DeepSeek 正在用行動證明,中國 AI 不只是追趕者,更是規則的改寫者。”
無論 R2 是否即將來襲,DeepSeek 的最新突破已經足夠引人注目。在這個技術日新月異的時代,他們的故事,才剛剛開始。
? AI范兒
要進“交流群”,請關注公眾號獲取進群方式
投稿、需求合作或報道請添加公眾號獲取聯系方式
DeepSeek 低調發布 V3-0324:性能比肩 Claude 3.5
DeepSeek 開源周最后一天: 揭秘 545% 超高利潤!
DeepSeek R1 憑什么震驚全世界?
點這里關注我,記得標星哦~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.