99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek 新論文揭秘:推理時間擴展或預示 R2 即將來襲

0
分享至


4月4日訊,人工智能領域的競爭從未停歇,而中國 AI 明星企業 DeepSeek 最新發布的論文《Inference-Time Scaling for Generalist Reward Modeling》(通用獎勵模型的推理時間擴展)無疑為這場角逐再添一把火。這篇論文不僅展示了一種通過增加推理計算量提升模型性能的新思路,還讓人不禁猜測:備受期待的 DeepSeek R2 模型可能已近在咫尺。

突破常規的“推理時間”革命

大型語言模型的訓練通常依賴海量數據和高昂算力,而在訓練過程中獎勵模型扮演著至關重要的角色,它為強化學習提供反饋信號,幫助模型優化輸出。然而,傳統的獎勵模型通常針對特定領域(如數學問題或規則明確的游戲)設計,難以適應多樣化的通用查詢。此外,隨著推理任務復雜性的增加,如何在推理階段有效利用計算資源(即推理時間擴展,Inference-Time Scaling)成為一個亟待解決的問題。


OpenAI 的 o1 系列模型率先展示了推理時間擴展的潛力,通過延長推理過程中的“思維鏈”(Chain-of-Thought, CoT),顯著提升了數學、編碼等任務的性能。然而,如何將這一思路推廣到通用獎勵建模,并設計出高效、可擴展的解決方案,仍是研究領域的空白。

DeepSeek 的這篇論文正是在此背景下應運而生。研究團隊的目標是探索“通用獎勵模型的推理時間擴展”,即如何通過增加推理計算量提升獎勵模型在各種任務中的表現,同時避免傳統方法在訓練資源上的過度依賴。論文提出了一種名為 DeepSeek-GRM 的模型,并結合創新的訓練方法和推理策略,為這一領域提供了新的思路。


圖3:SPCT的示意圖,包括拒絕性微調、基于規則的強化學習以及推理過程中相應的可擴展行為。通過簡單投票或元RM引導投票,利用大規模生成的原則實現推理時的擴展,從而在擴展的價值空間內產生更細粒度的結果獎勵。

論文中,DeepSeek 推出了名為 DeepSeek-GRM 的新模型,搭配一種創新的訓練方法“自原則批評調優”(SPCT)。這套組合拳讓模型能在推理時動態調整輸出,確保對各種復雜問題的回答更精準、更可靠。更令人興奮的是,團隊還設計了一個“元獎勵模型”來協調多個候選答案,確保質量隨著計算量的增加而穩步提升。


圖1:在所有測試的RM基準上,使用不同RM進行推理時的性能擴展。結果展示了每種方法最多8個樣本的情況,并且我們的結果進一步擴展到了32個樣本。非斜體字體表示基于Gemma-2-27B的模型。

DeepSeek-GRM 的成功并非偶然,而是建立在一套巧妙的技術組合之上。核心在于它跳出了傳統獎勵模型的窠臼,采用了生成式評分方式(GRM),讓模型能靈活應對各種任務,而非簡單地比較優劣。與此同時,“自原則批評調優”(SPCT)讓模型學會自我反省,通過強化學習不斷優化判斷,減少對人工干預的依賴。

推理時,DeepSeek-GRM 還能并行生成多個答案,再由“元獎勵模型”從中挑出最佳方案,這種多線程操作讓性能隨著計算資源增加而顯著提升。受 OpenAI o1 的啟發,模型還融入了動態調整的“思維鏈”,根據問題難度靈活分配思考時間。這些創新共同打造了一個既聰明又高效的系統,展現了推理時間擴展的巨大潛力。

數據說話:性能超預期

實驗結果顯示,DeepSeek-GRM 在多個測試中擊敗了傳統方法,尤其是在需要復雜推理的任務上表現搶眼。比如,與那些只靠訓練階段堆砌資源的模型相比,DeepSeek-GRM 在相同預算下往往能交出更優的答卷。更重要的是,這種方法的擴展性極強——只要多給它一點“思考時間”,性能就能持續攀升。


表2:不同方法和模型在RM基準上的綜合結果。下劃線數字表示最佳性能,粗體數字表示在基準方法和我們的方法中的最佳性能,斜體字體表示標量或半標量RM。對于元RM引導投票(MetaRM),k_meta = 1/2 * k。

這一發現可能會改變游戲規則,它意味著未來的 AI 不一定需要無底洞般的訓練成本,而是可以通過推理階段的優化實現突破。

R2 的影子?

DeepSeek 的這篇論文來得正是時候。去年,其 R1 模型以開源姿態震撼業界,迅速成為開發者社區的寵兒。而隨著推理時間擴展技術的亮相,外界普遍猜測,DeepSeek 可能正在為下一代模型——傳聞中的 R2——鋪路。如果 R2 真的整合了這種技術,它或許能進一步以更低的訓練成本挑戰 OpenAI 的 o1 系列,甚至在某些任務上實現“以小博大”的逆襲。

DeepSeek 的節奏非常快,從 R1 到現在的論文,他們顯然在加速迭代。R2 如果能把推理時間擴展做到極致,可能會重新定義性價比的標桿。

下一步是什么?

與以往一樣,DeepSeek 再次承諾將 DeepSeek-GRM 開源。這一舉動不僅延續了其“技術普惠”的品牌形象,也為全球開發者提供了一個低門檻的實驗平臺。不過,論文也坦言,這項技術并非完美無缺——在處理極端復雜問題時,模型仍有改進空間。

盡管 DeepSeek 尚未正式公布 R2 的發布時間表,但這篇論文無疑點燃了業界的期待。AI 競賽的下一幕,或許就藏在這套“多想幾步”的技術背后。正如一些國外媒體所言:“DeepSeek 正在用行動證明,中國 AI 不只是追趕者,更是規則的改寫者。”

無論 R2 是否即將來襲,DeepSeek 的最新突破已經足夠引人注目。在這個技術日新月異的時代,他們的故事,才剛剛開始。

? AI范兒

要進“交流群”,請關注公眾號獲取進群方式

投稿、需求合作或報道請添加公眾號獲取聯系方式


DeepSeek 低調發布 V3-0324:性能比肩 Claude 3.5


DeepSeek 開源周最后一天: 揭秘 545% 超高利潤!


DeepSeek R1 憑什么震驚全世界?

點這里關注我,記得標星哦~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

上海女子不上班,但卻住豪宅開豪車,警察:她家現金堆成山了

懸案解密檔案
2025-05-09 18:00:29
石川佳純喊話中國小伙娶她?不要彩禮,不會變成全職太太

石川佳純喊話中國小伙娶她?不要彩禮,不會變成全職太太

開成運動會
2025-05-04 23:17:52
歐聯決賽對決在即,本輪聯賽曼聯盡遣主力熱刺大幅輪換

歐聯決賽對決在即,本輪聯賽曼聯盡遣主力熱刺大幅輪換

懂球帝
2025-05-17 02:54:12
29歲攝影師杜炎軍確定已遇難,峨眉山金頂跳崖自殺,身世悲慘

29歲攝影師杜炎軍確定已遇難,峨眉山金頂跳崖自殺,身世悲慘

涵豆說娛
2025-05-16 10:00:11
廣東凍齡美女主持,低調嫁富商生子,現在做了領導,從年輕美到老

廣東凍齡美女主持,低調嫁富商生子,現在做了領導,從年輕美到老

阿訊說天下
2025-05-16 16:55:08
一買就跌!杭州女生花20萬買黃金虧掉兩個月工資,國際金價累計跌幅近10%,中國央行連續6個月增持

一買就跌!杭州女生花20萬買黃金虧掉兩個月工資,國際金價累計跌幅近10%,中國央行連續6個月增持

金融界
2025-05-16 20:53:55
F1伊莫拉:邁凱倫強勢,包攬前2!皮亞斯特里最快,維斯塔潘第7

F1伊莫拉:邁凱倫強勢,包攬前2!皮亞斯特里最快,維斯塔潘第7

體育妞世界
2025-05-17 06:10:11
重慶媒體自曝重慶“小升初”亂象,機構與名校共謀,隱秘鏈條曝光

重慶媒體自曝重慶“小升初”亂象,機構與名校共謀,隱秘鏈條曝光

鬼菜生活
2025-05-17 01:19:58
玩家的PS5被當成貓窩了 網友:貓毛地獄警告

玩家的PS5被當成貓窩了 網友:貓毛地獄警告

游民星空
2025-05-16 21:13:26
西媒:歐盟拒絕與美達成類似英國關稅協議

西媒:歐盟拒絕與美達成類似英國關稅協議

參考消息
2025-05-16 13:04:08
她流產10次才懷孕成功,孩子出生就因腦溢血去世,二胎又患上腦癌

她流產10次才懷孕成功,孩子出生就因腦溢血去世,二胎又患上腦癌

阿器談史
2025-05-16 00:18:16
俞灝明王曉晨官宣結婚!俞灝明告白老婆令人淚目,巨型鴿子蛋好閃

俞灝明王曉晨官宣結婚!俞灝明告白老婆令人淚目,巨型鴿子蛋好閃

顧蔡衛
2025-05-17 08:06:15
學校里發生過最讓你震驚的事是啥?網友:我朋友后媽和親媽是初戀

學校里發生過最讓你震驚的事是啥?網友:我朋友后媽和親媽是初戀

娛樂圈人物大賞
2025-05-05 00:25:07
英超史上最慘烈爭5大戲:3-5名均66分,曼城第6 阿森納仍可能出局

英超史上最慘烈爭5大戲:3-5名均66分,曼城第6 阿森納仍可能出局

風過鄉
2025-05-17 06:13:47
曼聯0-1切爾西英超8輪不勝!兩人錯失正名良機,恐無緣歐聯杯首發

曼聯0-1切爾西英超8輪不勝!兩人錯失正名良機,恐無緣歐聯杯首發

羅米的曼聯博客
2025-05-17 08:28:40
布朗季后賽三分球命中數超越霍里,升至NBA歷史第17位

布朗季后賽三分球命中數超越霍里,升至NBA歷史第17位

雷速體育
2025-05-17 08:50:44
母親失手打死女兒后續,原因離譜,知情人透內幕,果然不簡單

母親失手打死女兒后續,原因離譜,知情人透內幕,果然不簡單

聯友說娛
2025-05-16 11:44:35
男女發生關系,絕不是簡單的睡覺!

男女發生關系,絕不是簡單的睡覺!

野薔薇觀察所
2025-05-15 17:34:27
軍工爆發!三大軍貿龍頭訂單激增300%,誰是下一個成飛?

軍工爆發!三大軍貿龍頭訂單激增300%,誰是下一個成飛?

夢耀說市
2025-05-13 06:35:03
開源鴻蒙電腦開啟預售:專為開發者打造,6999元起

開源鴻蒙電腦開啟預售:專為開發者打造,6999元起

PChome電腦之家
2025-05-16 10:29:50
2025-05-17 09:15:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
496文章數 128關注度
往期回顧 全部

科技要聞

OpenAI最強寫代碼AI智能體來了:Codex上線

頭條要聞

特朗普"生日閱兵"細節披露:預計6600名士兵參加

頭條要聞

特朗普"生日閱兵"細節披露:預計6600名士兵參加

體育要聞

退役8個月后喜提3冠,人生的轉折如此突然

娛樂要聞

嘉行回應黃楊鈿甜風波翻車,引發眾怒

財經要聞

一船難求,又要開始了?

汽車要聞

吉利發布最強一季報后,繼續整合、補短板是關鍵

態度原創

數碼
健康
教育
房產
旅游

數碼要聞

99元起!米家筒燈/射燈2 Pro 藍牙Mesh版發布:Ra 97高顯指、支持青山護眼

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

離譜!學校僅700個學生,卻有98名教師,校長還找領導要人

房產要聞

三年血虧468萬!天河、黃埔網紅盤,跌到底了嗎?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 西丰县| 霍林郭勒市| 凤庆县| 彰武县| 浦东新区| 宜宾县| 祥云县| 惠州市| 钦州市| 个旧市| 沧源| 宝丰县| 泾阳县| 镇远县| 张掖市| 大连市| 辽中县| 翁牛特旗| 梅州市| 五河县| 海门市| 北宁市| 乌鲁木齐市| 平定县| 囊谦县| 苍梧县| 淮滨县| 忻州市| 桑日县| 上林县| 伊金霍洛旗| 共和县| 庆元县| 神木县| 天镇县| 晋宁县| 手游| 湖南省| 阿图什市| 东山县| 班玛县|