99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

蘋果港大終結自回歸時代?7B擴散模型發布,AI寫代碼邏輯徹底顛覆!

0
分享至


新智元報道

編輯:KingHZ 海貍

【新智元導讀】LLM非要按順序寫代碼?蘋果聯手港大發布DiffuCoder,用擴散模型+強化學習策略,直接性能飆升4.4%。 自回歸,真的要落幕了嗎?

文本擴散模型這次要起飛了?

5月,在I/O 2025大會上,谷歌推出了Gemini Diffusion,主打速度快:采樣速度輕松可達每秒1000個token。


本該光芒四射、萬眾矚目的Gemini Diffusion卻被Veo 3等搶了風頭。

但很快就有網友發現,他用的動圖,其實是來自國內的研究——Dream 7B。



也正是這個團隊的成員,最近聯合蘋果放出了新的大招。

通過與港大相關團隊合作,蘋果用1300億有效token訓出了自己的擴散大語言模型(Diffusion Large Language Model,dLLM)——7B參數的DiffCoder。


論文鏈接:https://arxiv.org/abs/2506.20639

項目鏈接:https://github.com/apple/ml-diffucoder

另外值得一提的是,作者除蘋果的Navdeep Jaitly外都是華人。

Diffusion的確不一樣

dLLM具備全局規劃與迭代優化能力,尤其適合代碼生成。

但缺乏dLLM訓練方法與推理策略。

為揭開dLLM解碼機理,蘋果聯合港大開源了新模型——DiffuCoder。

與GPT等自回歸比較,這次發現dLLM確實不一樣:

  • dLLM可自主調節生成過程的因果性,無需半自回歸(semi-AR)解碼;

  • 提高采樣溫度不僅拓寬了token的選擇氛圍,還改變了生成順序,進一步增強了多樣性。

這種雙重多樣性為強化學習提供了更豐富的搜索空間。


針對RL訓練中的對數似然估計方差問題,他們還創新性提出的耦合梯度獎勵策略優化(coupled-GRPO)方法,通過構建互補掩碼噪聲對提升訓練效率。

實驗表明:

  • 在EvalPlus基準上實現+4.4%性能提升

  • 有效降低解碼過程對AR偏置的依賴(見圖1c)

這次研究不僅深化了對dLLM生成機制的理解,更建立了首個專為擴散模型設計的原生RL訓練框架。


圖1:(a)DiffuCoder-Instruct模型在采樣溫度1.2時的解碼過程實例;(b)代碼生成基準測試結果對比;(c)當解碼步數減半時,采用耦合-GRPO訓練的DiffuCoder-Instruct性能下降幅度顯著小于原始指令微調模型

這次工作重點探究3大問題:

  • 生成模式差異:與AR模型相比,dLLM的生成機制有何本質區別?

  • 模態建模特性:在代碼與數學等不同數據模態的建模中,dLLM表現出哪些差異化特征?

  • 多樣性潛力:dLLM的生成多樣性邊界如何界定?相應的訓練后策略應如何針對性設計?

他們還提出了全新的指標:自回歸度得分(autoregressiveness score,AR-ness),用于量化dLLM在生成過程中是否呈現出「因果式」的順序偏好。

關鍵發現如下

  • dLLM仍存在一定的「從左至右」偏好。這是由文本天然的線性結構所決定的。但與自回歸(AR)模型不同的是,dLLM具備打破這一約束的能力!

  • 代碼任務比數學任務更能激發「去順序化」的生成方式。實驗顯示,在預訓練階段,dLLM在處理代碼任務時表現出更低的「全局自回歸度」,這說明代碼更適合并行生成。

  • 采樣溫度不僅影響生成內容,還會改變生成順序!與AR模型不同,dLLM中調整temperature參數會同時影響token選擇和token生成的位置順序,生成過程更加靈活。

  • 更多驚喜性發現詳見原論文,研究人員揭示了dLLM結構中的多個「非因果化」潛力點,值得深入探索。

此外,研究人員還提出了后訓練方法——Coupled-GRPO,專為DiffuCoder設計。

保持采樣效率的同時,耦合機制進一步提升了模型性能。

擴散模型,正在重構寫代碼的方式。

性能表現:DiffuCoder vs. 主流代碼大模型

在多項基準測試上,研究人員評估了DiffuCoder的表現(見表1)。

這些測試以Python為主,涵蓋從基礎完成到復雜指令生成的多種任務。

結果亮點

  • 經過130B代碼token的訓練(Stage 1+2),DiffuCoder在多個指標上已與Qwen2.5-Coder、OpenCoder相當;

  • 在pass@1任務上,Coupled-GRPO后訓練策略展現出顯著優勢。

然而,在指令微調階段,所有dLLM模型的增益仍顯疲弱,說明后續還需加強dLLM在理解/執行復雜自然語言任務上的能力。


表1:7B/8B規模語言模型代碼生成能力基準測試

核心洞察:三大重點

dLLM的生成方式與自回歸模型有何不同?

在標準的自回歸解碼中,無論是局部還是全局自回歸性都為1(即100%自回歸)。

但如圖3所示,dLLM的生成順序更加靈活:許多token并不是依序從最左側的Mask位置或下一個token開始恢復的。

這表明與傳統的自回歸模型相比,dLLM并不總是按順序解碼

不過,它們的局部和全局AR-ness都顯著接近1,說明文本本身具有一定的順序結構。

在DiffuCoder中,研究者認為模型可以自主決定在生成時采用多強的因果結構。


圖3:左圖:不同模型與數據模態下的局部與全局自回歸特性比較。右圖:(a)dLLM首次前向解碼過程中各位置的置信度評分;(b)局部自回歸性@k:指在k=1(即下一token預測)時,新解掩token與其前k個連續預測token構成嚴格遞增序列的解碼步驟占比;全局自回歸性@k:模型在所有剩余被掩token中選擇解掩最靠前k個位置的解碼步驟占比。

數據模態如何影響生成策略?

從圖3可以看出,盡管數學題和代碼的局部AR-ness程度不同,但穩定的趨勢是:代碼生成的全局AR-ness平均值更低,波動更大

這說明模型在生成代碼時,往往優先預測后面的token,而將前面被Mask的token延后填充。

這可能是因為:

數學文本本質上是按順序構建的,通常要求從左到右推理;

代碼則具有更強的結構性,模型更傾向于像程序員一樣在不同位置之間跳躍進行規劃。

在訓練過程中,AR-ness有何變化?

在訓練早期(圖4中的階段1),當模型看到650億個token時,AR-ness已經相對較低。但當訓練規模擴大到7000億token時,AR-ness提高了,然而整體性能卻下降了。

這可能與預訓練數據質量有關,因此選擇650億token的模型作為后續訓練的基礎。


圖4:不同訓練階段的自回歸特性漂移情況。左圖:適配預訓練階段與中期訓練階段;右圖:指令微調與強化學習后訓練階段。

在后續階段(階段2的中期訓練與階段3的指令微調)中,模型在第一輪訓練后表現出明顯的因果偏置。但隨著訓練繼續,雖然任務表現不斷提升,AR-ness卻逐漸下降。

這表明模型開始學習并利用非順序性的依賴結構。

在經過GRPO訓練后,模型的全局AR-ness進一步下降,但生成步驟減半的情況下,性能下降幅度卻較小(見圖1(c))。

當dLLM進行條件生成時,擴散過程從完全被Mask的補全文本開始,并嘗試逐步恢復全部內容。

在第一步中,研究者記錄了每個恢復出來的token的置信度(見圖3(a))。

研究者觀察到,這些置信度的分布呈現出「L」形。他們把這種現象稱為「熵匯集」(Entropy Sink)。這種現象可能源于文本的結構本身。

這種「熵偏置」可能與注意力機制中的「注意力匯」現象,但其本質仍有待進一步研究。

由于這個偏向鄰近位置的現象存在,dLLM仍然表現出一定程度的自回歸性。

dLLM的生成多樣性邊界如何界定?

已有研究表明,在接受強化學習(RL)訓練后,自回歸LLM推理路徑的多樣性受到基礎模型的pass@k抽樣能力的限制。

因此,研究者采用pass@k準確率指標,來衡量擴散式大語言模型(dLLMs)在生成樣本時的多樣性表現。

如圖5右和圖6所示,無論是DiffuCoder的基礎模型,還是經過指令微調的版本,當溫度設置較低時,雖然能獲得較高的pass@1準確率,但pass@k幾乎沒有提升,說明生成結果高度集中,缺乏多樣性。


當把溫度提高到適中范圍,模型的pass@k明顯上升,說明具備生成多種正確答案的潛力。


此外,如圖5左和圖1(a)所示,溫度越高,模型的自回歸性(AR-ness)越低,意味著生成的token順序更加隨機。

這一行為與自回歸模型截然不同:

在AR模型中,溫度僅影響每一步選擇哪個token;

在dLLMs中,溫度不僅會影響token的選擇,還會改變其生成的順序。

構建強化學習基座

DiffuCoder的多階段訓練流程

之前,擴散模型缺乏強化學習潛力。

這次,團隊遵循下文中的范式,多階段大規模訓練了DiffuCoder。


論文鏈接:https://arxiv.org/abs/2410.17891

整體流程如圖2所示,分為四個階段:


圖2:DiffuCoder訓練階段的流程及耦合-GRPO算法的示意圖。

  • 預訓練階段以Qwen-2.5-Coder作為基礎模型,使用「適配式預訓練方法」進行持續訓練。

  • 中間訓練階段作為穩定模型參數的「退火期」,總體token量仍為65B,使用了16Btoken的退火代碼數據。

  • 指令微調階段為了提升模型理解和執行復雜自然語言指令的能力,采用了OpenCoder提供的436K大小的SFT樣本。


    論文鏈接:https://arxiv.org/abs/2411.04905

    不過,不像Qwen2.5-Coder用了SFT之后有非常顯著的增益,Diffusion模型微調之后性能提升非常有限這說明當前dLLM在指令對齊能力上仍有差距。

  • 后訓練階段引入自研的Coupled-GRPO算法,這是團隊為dLLM量身打造的強化學習機制,進一步提升DiffuCoder的單次準確率

Coupled-GRPO是為dLLM量身打造的強化學習機制。

常規做法只在「被掩碼的token位置上」計算對數概率。

若是采樣次數有限,這種方法容易受到訓練信號稀疏和方差過大的困擾。

Coupled-GRPO算法拋棄了這種做法。

全新的Coupled-GRPO則在兩個「互補的掩碼視角」下,評估每個token的概率,從而高效獲取完整訓練信號。


具體來說,Coupled-GRPO采用對稱時間步+互補掩碼雙路徑前向傳播,計算開銷增長不大,同時采樣效率翻倍。

這招打破了「只能在掩碼位置學」的老規矩,讓每個token都「上場發光」,堪稱擴散范式的一次策略級進化。

作者介紹

Sansa Gong


Sansa Gong在香港大學攻讀博士學位,導師是Lingpeng Kong。本科和碩士均畢業于上海交通大學。

她的研究興趣包括擴散語言模型和長上下文語言模型。

此前,她在上海AI實驗室的Shark-NLP團隊擔任自然語言處理研究員,并曾經從事姿態估計、面部識別、層次文本分類和推薦系統的工作。

參考資料:

https://arxiv.org/abs/2506.20639

https://github.com/apple/ml-diffucoder


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
民調顯示韓國總統李在明執政首月支持率為65%

民調顯示韓國總統李在明執政首月支持率為65%

財聯社
2025-07-04 21:58:14
日本“硬抗”特朗普 這一次是真的“跪”不動了

日本“硬抗”特朗普 這一次是真的“跪”不動了

看看新聞Knews
2025-07-04 06:49:43
55歲雷軍直播罕見生氣!員工準備不充分,一秒黑臉撇嘴看著很嚴肅

55歲雷軍直播罕見生氣!員工準備不充分,一秒黑臉撇嘴看著很嚴肅

娛樂圈圈圓
2025-07-03 17:20:17
堆積如山的庫存 多地汽車經銷商公開求救

堆積如山的庫存 多地汽車經銷商公開求救

中車網評
2025-07-04 17:22:51
北京辦公樓空置率上半年降至20.2%,中關村率先降至8.9%

北京辦公樓空置率上半年降至20.2%,中關村率先降至8.9%

焦點財經Focus
2025-07-04 22:57:23
妻子走了我只能去女婿家過年,只有女兒在忙活,吃飯時她卻趕我走

妻子走了我只能去女婿家過年,只有女兒在忙活,吃飯時她卻趕我走

第四思維
2025-06-30 12:51:45
地鐵12號線一開 廣州這個富人島房價被狙擊

地鐵12號線一開 廣州這個富人島房價被狙擊

說故事的阿襲
2025-07-05 01:14:02
高考完后天津的外地家長開始瘋狂砸盤,使命完成了,房子就要了

高考完后天津的外地家長開始瘋狂砸盤,使命完成了,房子就要了

星河也燦爛
2025-07-04 14:43:26
公開決裂!洪森開始行動,家族突然轉向?中國早就留好后手

公開決裂!洪森開始行動,家族突然轉向?中國早就留好后手

娛樂的宅急便
2025-07-04 08:05:47
TVB知名女星病逝,丈夫上周墜亡

TVB知名女星病逝,丈夫上周墜亡

極目新聞
2025-07-04 20:44:16
「電子垃圾三件套」,撈了中國男人幾百億?

「電子垃圾三件套」,撈了中國男人幾百億?

鳳凰WEEKLY
2025-07-04 16:08:45
1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

紀實文錄
2025-06-21 14:47:10
“工地大叔”劉詩利走紅僅4天,令人惡心一幕上演,央視發聲力挺

“工地大叔”劉詩利走紅僅4天,令人惡心一幕上演,央視發聲力挺

阿廢冷眼觀察所
2025-07-04 08:17:37
支付寶寫信安慰菜鳥,贊助蘇超球隊被拒,網友笑麻:這是公開撒鹽

支付寶寫信安慰菜鳥,贊助蘇超球隊被拒,網友笑麻:這是公開撒鹽

小嵩
2025-07-04 21:26:46
間諜網絡連根拔起,美國損失慘重,七天后的報復來得如此迅猛

間諜網絡連根拔起,美國損失慘重,七天后的報復來得如此迅猛

流年拾光
2025-07-04 15:06:17
外媒:印度擬對美國征收報復性關稅

外媒:印度擬對美國征收報復性關稅

新華社
2025-07-04 20:58:04
《以法之名》直到姜紅軍被調查,才知,孫飛貪污1億,牽出蘭景茗

《以法之名》直到姜紅軍被調查,才知,孫飛貪污1億,牽出蘭景茗

大歪歪
2025-07-04 22:47:05
小別勝新婚是什么體驗?網友:成年人的世界好污啊

小別勝新婚是什么體驗?網友:成年人的世界好污啊

解讀熱點事件
2025-06-05 00:10:03
甘肅一幼兒園部分幼兒血鉛異常:數十患兒跨省診療 有孩子去年就查出異常

甘肅一幼兒園部分幼兒血鉛異常:數十患兒跨省診療 有孩子去年就查出異常

上游新聞
2025-07-04 19:33:13
小鵬汽車暴跌!

小鵬汽車暴跌!

電動知家
2025-07-04 18:35:22
2025-07-05 07:43:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12990文章數 66082關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

特朗普支持者強烈不滿"大而美"法案:"背叛"工人階級

頭條要聞

特朗普支持者強烈不滿"大而美"法案:"背叛"工人階級

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

重生之拿回銷量 領克10 EM-P搶鮮實拍

態度原創

本地
藝術
游戲
旅游
公開課

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

明晃晃白花花!《洛奇英雄傳》新作A測最常被選服裝

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 偃师市| 渝北区| 根河市| 蓬莱市| 磐安县| 西乡县| 乌兰察布市| 潮州市| 巴中市| 边坝县| 乌鲁木齐县| 满城县| 奉贤区| 调兵山市| 农安县| 城市| 石泉县| 英超| 屏南县| 建阳市| 平南县| 尼木县| 甘肃省| 汉源县| 电白县| 内黄县| 宁化县| 密山市| 桃园市| 三原县| 孝感市| 长丰县| 宜兰县| 西林县| 二手房| 遂平县| 伊金霍洛旗| 新营市| 布尔津县| 盐亭县| 大城县|