99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek R-1更新,讓人更期待R2的“雄心與真誠”

0
分享至

R2沒來,R1-0528來了。

這款以半年前的DeepSeek V3 Base模型為基座,在后訓練階段投入更多算力的升級版推理模型,同樣非常能打,讓DeepSeek穩居全球第二AI實驗室的位置。寬松的MIT許可也沒變化,兌現了向全球技術生態提供強大開源模型的承諾。這更讓人期待V4與真正的R2了。

在多項基準測試中,DeepSeek-R1-0528在數學、編程和通用邏輯上的性能,足以媲美最強閉源模型o3和Gemini 2.5 Pro,也超越了最強開源模型Qwen3-235B。它還在幻覺改善、創意寫作、工具調用與前端代碼生成上有所提升。

獨立AI分析網站Artificial Analysis很快更新了領先AI大廠模型智能的排名。DeepSeek無論在性能提升還是迭代速度上,都緊緊咬住了OpenAI。差不多兩年前,奧特曼與伊萊亞被問及,開源模型能否趕上GPT-4時,還非常自信地認為,即使趕上了,兩者在真正的前沿模型上的差距也會越拉越大;當時,DeepSeek正式成立剛剛滿月。


DeepSeek同時發布蒸餾版的R1-0528-Qwen3-8B,在數學測試中的表現,與比它大數十倍的Qwen3-235B相當,提升了學術界與工業界對最先進AI的可訪問性。DeepSeek官方公眾號特地將這一重要意義加黑加粗了。

在DeepSeek社交媒體平臺X的官方賬號下,開源社區對它樸素的版本命名規則給與好評,甚至認為在自己心里,它就是R2了。還有不少開發者在評論里許愿,要求下一代大模型要有更大的上下文窗口,原生的多模態功能,等等。

不妨結合DeepSeek的“歷史”與開源社區的期待,大膽推測一下它的下一代模型會是什么樣吧。

首先,R1-0528從一開始就不是R2,也不是R-1.5。DeepSeek對模型的命名,有其“潛規則”。要讓“版本號”小升級,至少要有不同Base(基座)模型級別的迭代與功能的合并。

2個月前,V3-0324更新,也沒有命名為V-3.5。因為它與之前的V3一樣,使用了同樣的Base模型,僅改進了后訓練方法。這次的R1-0528,則主要是在同樣的Base模型上,投入了更多的后訓練算力。

但是,DeepSeek是發布過V-2.5的。這是一款融合了通用與代碼能力的全新開源模型。從V-2升級到V-2.5,涉及到Base模型的切換與模型的合并。2024年5月,初代DeepSeek-V2發布;6月,DeepSeek-Coder-V2發布,6月底,V2-0628上線,用Coder-V2的Base模型,替換原有的Chat的Base模型;7月,對齊優化的Coder-V2-0724上線;9月,V2-0628與Coder-V2-0724在相同Base模型的基礎上合并,即V-2.5。12月10日,V2.5-1210上線,宣告V2系列收官。兩周后,下一代的DeepSeek-V3開源,官方稱其為“V3的首個版本”。

第二,成熟度最高的代碼能力,已經融合進去了;下一代模型很可能就是原生多模態。

在V系列基礎大型語言模型之外,DeepSeek的團隊一直在各個分支上嘗試更多元的探索,包括數學模型Math以及專門用于數學定理證明的模型Prover,混合專家視覺語言模型VL2以及自回歸的統一多模態理解與生成模型Janus等。

這體現了DeepSeek的“長期主義”與言行一致。代碼與數學,多模態與自然語言本身,三者正是DeepSeek創始人梁文鋒押注的三個方向,“數學和代碼是AGI天然的試驗場,有點像圍棋,是一個封閉的、可驗證的系統,有可能通過自我學習就能實現很高的智能”。

DeepSeek證明了自己可以很好地合并模型;而且,MoE又天然的是多專家的模型。也許最終,這三個押注方向都會合流。尤其是多模態,一直都是開源社區對DeepSeek的V4或R2的期待;至少在DeepSeek下一代模型的完整迭代周期內實現。閉源的OpenAI、谷歌已經都這么做了。

第三,下一代基礎模型的推出,至少對應著新的注意力機制創新的工程化與商業化,也越來越對應人類對“記憶”該有的樣子的理解。這種將“規模競賽”進一步扭轉為“效率競賽”的努力,事實上變相為“擴展定律”續了命,有利于在更高效的算力支出上研發更高參數規模的大模型,同時也為應用場景進一步降低了全面采用AI的成本。

這正是貫穿DeepSeek主力模型迭代始終的主線。DeepSeek-V2對傳統Transformer架構的自注意力機制進行了全方位的創新,提出了MLA(多頭潛在注意力)機制。美國知名半導體分析機構semianalysis敏銳地感覺到,這種架構創新將對OpenAI造成麻煩。V3則首創了一種無輔助損失的負載均衡策略,并設定了多token預測訓練目標以提升性能,以及開創性的適用于FP8精度的訓練框架。

最有希望引入V4或R2模型的,也許要數DeepSeek年初提出的NSA(原生可訓練稀疏注意力)機制。它能帶來的,也正是用戶目前迫切想要的長上下文。更長的上下文,意味著倉庫級代碼生成、多輪智能體間互動以及科研深度的推理能力。但是,注意力計算在總計算成本中占比,也會隨著要處理的上下文的序列的增長而急劇增長。而目前很多稀疏注意力機制只是在特定階段受限起效。

NSA支持端到端的訓練,而且硬件對齊友好,通過將文本壓縮為粗粒度語義塊(壓縮數據量)、動態篩選關鍵片段(減少計算量),并結合局部滑動窗口(限定關注長度),既保留全局理解,又減少冗余計算。DeepSeek團隊已經在27B(3B激活參數)的MoE架構模型上做了多項測試,提升顯著。

V4還可能會帶來更多注意力機制創新。DeepSeek團隊成員提到了一項名為BSBR(帶塊檢索的塊稀疏注意力)的技術,短期記憶用傳統方法處理(塊內遞歸),長期記憶則用全局注意力機制捕捉(塊外全局注意力),保存在 SSD 硬盤里,需要時快速檢索到GPU上。

第四,DeepSeek之于整個AI生態,尤其是中國的AI生態的意義,不僅僅在于它會回答下一代模型怎么樣,還會回答適配下一代模型的基礎設施怎么樣。

去年至今,它先后用兩篇論文,分別詳細介紹了如何通過軟硬件協同優化,用A100與H800搭建出“平民版”的智算集群。H800集群已經訓練出了V2與V3,V4會擁有自己的全新的基礎設施嗎?


在這個意義上,今年年初NSA論文里提到的“基于Triton實現硬件對齊的稀疏”的細節,讓人回想起去年這個時候,微軟、Meta的工程師忙著為Triton優化。

這是專為神經網絡計算設計的跨平臺兼容的編程語言和編譯器,提供了一種從CUDA中解耦出來的可能性。當Meta發布第二代MTIA時,其工程師表示Triton “高效”且“與硬件無關”。不過,在中國以外的市場,大家還都沒有被逼到不用CUDA只用Triton的地步。

此外,開源社區也有人好奇,隨著后訓練的比重越來越大,會出現新的針對強化學習優化的AI基礎設施嗎?

25個月前,DeepSeek在前身幻方量化的公眾號上發表了其AGI征程宣言,引用到“務必要瘋狂地擁抱雄心,同時要瘋狂地真誠”。那么,也讓我們期待DeepSeek的下一代大模型會更具“雄心”與“真誠”。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“成筐的充電寶被攔”!有機場已經提前執行新規定

“成筐的充電寶被攔”!有機場已經提前執行新規定

上觀新聞
2025-06-27 07:34:08
600分無緣211,690無緣清北,特控線全國最高,心疼這個高考大省

600分無緣211,690無緣清北,特控線全國最高,心疼這個高考大省

史書無明
2025-06-25 22:29:55
一天打8小時零工,過了40歲的我,“還沒讓自己認輸” | 深度報道

一天打8小時零工,過了40歲的我,“還沒讓自己認輸” | 深度報道

北青深一度
2025-06-26 16:06:50
不想被電車背刺的人,都去搶小米YU7了

不想被電車背刺的人,都去搶小米YU7了

源Auto
2025-06-26 21:57:28
以色列證實地面部隊進入伊朗!德黑蘭確認最高指揮官身亡

以色列證實地面部隊進入伊朗!德黑蘭確認最高指揮官身亡

項鵬飛
2025-06-26 22:11:12
家庭聚餐要報備?餐館冷清!新華社:基層整治跑偏,普通人遭了殃

家庭聚餐要報備?餐館冷清!新華社:基層整治跑偏,普通人遭了殃

春序娛樂
2025-06-27 11:42:25
徹底涼涼?保時捷銷量暴跌42%、降40萬沒人買,網友:誰當冤大頭

徹底涼涼?保時捷銷量暴跌42%、降40萬沒人買,網友:誰當冤大頭

劉曠
2025-06-27 10:02:19
小米YU7九色全開箱!實拍無濾鏡,哪個是你的

小米YU7九色全開箱!實拍無濾鏡,哪個是你的

葡萄說娛
2025-06-27 10:09:30
68歲大爺全身重彩刺青腸子悔青了:身份證辦不了親戚躲著走

68歲大爺全身重彩刺青腸子悔青了:身份證辦不了親戚躲著走

大象新聞
2025-06-27 09:43:27
29歲女孩跑網約車,一天掙夠500元才收工

29歲女孩跑網約車,一天掙夠500元才收工

瀟湘晨報
2025-06-27 11:44:12
27歲河南女子“李福貴”走村賣貨吸粉600多萬,自學英語、會開拖拉機,面對流量她痛哭稱壓力太大

27歲河南女子“李福貴”走村賣貨吸粉600多萬,自學英語、會開拖拉機,面對流量她痛哭稱壓力太大

極目新聞
2025-06-27 14:12:35
確實接受不了!很多北大學生退學,竟是醫學部調劑學生到護理專業

確實接受不了!很多北大學生退學,竟是醫學部調劑學生到護理專業

火山詩話
2025-06-27 12:36:37
1歲工作22歲退休?山西一疾控中心職工,領69萬養老金

1歲工作22歲退休?山西一疾控中心職工,領69萬養老金

大象新聞
2025-06-26 17:30:59
太尷尬了!女兒高考成績662分,朋友圈集體沉默,只收獲幾個贊…

太尷尬了!女兒高考成績662分,朋友圈集體沉默,只收獲幾個贊…

火山詩話
2025-06-27 05:43:50
伊朗看到朝鮮的滾筒洗衣機陣列,會流下羨慕嫉妒恨的口水吧?

伊朗看到朝鮮的滾筒洗衣機陣列,會流下羨慕嫉妒恨的口水吧?

科羅廖夫
2025-06-26 13:20:13
足協開始慌了?蘇超除了球技有點業余,這幾點已經完美碾壓中超!

足協開始慌了?蘇超除了球技有點業余,這幾點已經完美碾壓中超!

田先生籃球
2025-06-27 11:59:43
1棵樹采購價近80萬!福州煙臺山公園“天價樹”調查:已有多棵死亡

1棵樹采購價近80萬!福州煙臺山公園“天價樹”調查:已有多棵死亡

揚子晚報
2025-06-27 10:38:28
安徽一女子網購5斤荔枝,一口氣剝完后僅退款,網友:氣死了

安徽一女子網購5斤荔枝,一口氣剝完后僅退款,網友:氣死了

大笑江湖史
2025-06-26 17:55:06
帝國的挽歌與鋼軌上的黎明,從中伊鐵路看歐亞陸權重構與霸權黃昏

帝國的挽歌與鋼軌上的黎明,從中伊鐵路看歐亞陸權重構與霸權黃昏

小皮霸2025
2025-06-27 11:32:21
突發!83歲蔡瀾離世消息瘋傳!港星邵音音發文悼念,官方尚未回應

突發!83歲蔡瀾離世消息瘋傳!港星邵音音發文悼念,官方尚未回應

大笑江湖史
2025-06-27 09:19:51
2025-06-27 16:12:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
134文章數 38關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

27歲"李福貴"賣貨吸粉600多萬 面對流量哭稱壓力太大

頭條要聞

27歲"李福貴"賣貨吸粉600多萬 面對流量哭稱壓力太大

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

網傳白玉蘭最佳男女主獎將“爆冷”

財經要聞

1萬就能刪行政處罰?信用修復江湖起底

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

健康
藝術
游戲
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

AL無敵了!MSI還沒開打先發紀錄片,網友:訓練賽五勝GEN是真的?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美媒揭美軍37小時奔襲伊朗細節

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 曲水县| 博客| 酒泉市| 保靖县| 祁东县| 洪泽县| 西乌珠穆沁旗| 桃园市| 平度市| 集安市| 华坪县| 济源市| 延长县| 满洲里市| 独山县| 万全县| 巴林右旗| 莱西市| 长治市| 阿勒泰市| 河津市| 肥东县| 弥渡县| 诸城市| 从江县| 和田县| 方城县| 彭州市| 皮山县| 华阴市| 屏边| 武安市| 五家渠市| 竹北市| 海安县| 宁都县| 沭阳县| 大名县| 江永县| 兴业县| 泗阳县|