99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

擴散語言模型真的會比自回歸好?理論分析結果可能恰恰相反

0
分享至



本工作來自北京大學智能學院賀笛老師課題組與螞蟻集團武威團隊。賀笛老師在機器學習領域獲得過多項榮譽,包括 ICLR 2023 杰出論文獎與 ICLR 2024 杰出論文獎提名。

擴散模型近年來在圖像生成領域取得了令人矚目的成就,其生成圖像的質量和多樣性令人驚嘆。這自然引發了人們的思考:這種強大的生成范式能否遷移到文本領域,挑戰甚至取代目前主流的自回歸語言模型?擴散語言模型(Diffusion Language Models)憑借其并行生成多個詞元的潛力,似乎預示著文本生成領域的一場效率革命。然而,這一前景是否真的如此美好?來自北京大學和螞蟻集團的最新研究表明,答案遠非簡單的 “是” 或 “否”,在某些關鍵場景下,結論甚至可能恰恰相反。



  • 論文標題:Theoretical Benefit and Limitation of Diffusion Language Model
  • 論文鏈接:https://arxiv.org/pdf/2502.09622

擴散模型 vs. 自回歸:效率神話面臨拷問

自回歸模型,作為語言生成領域的主流范式,以其逐詞元(token-by-token)的順序生成方式著稱。盡管在生成質量上取得了巨大成功,但其固有的串行機制限制了推理速度,尤其是在處理長序列時。與之相對,擴散語言模型,特別是其中的掩碼擴散模型(Masked Diffusion Models, MDMs),允許在每個擴散步驟中并行采樣多個詞元,這從理論上為提升生成效率提供了可能。

然而,理論上的優勢在實踐中似乎遭遇了 “效率悖論”。研究人員觀察到,目前開源的擴散語言模型在某些任務上需要更多的采樣步驟才能達到與自回歸模型相當的準確率,導致了比自回歸模型更高的推理成本。這一悖論在實驗中得到了印證。下圖直觀展示了這一現象:在數學推理基準測試 GSM8K(8-shot)上,當與同等規模的自回歸模型 Qwen2.5-7B 對比時,兩款最近發布的大型掩碼擴散模型 Dream-v0-7B 和 LLaDA-8B,在不同的采樣步數下,其性能和效率均落后于自回歸基線,處于左圖中的第三象限(代表更低效率和更低性能)

鑒于不同模型可能使用了不同的訓練數據,研究人員意識到這可能對性能評估造成天然偏差。為消除該因素帶來的影響,團隊設計了更加客觀、公平的對比實驗:給定一個預訓練好的擴散語言模型,我們強制約束其在推理中采用從左到右的逐詞生成方式,并以這種"偽自回歸式"的解碼性能與效率作為基線,重新進行對比分析。理論上,在消除訓練數據差異的前提下,相對這種偽自回歸式的解碼方式,擴散語言模型理應在效率與性能之間取得更優平衡,表現應進入第一象限。然而,實驗結果卻出人意料 —— 即使與這種被約束的模型對比,擴散語言模型仍未展現出任何優勢,未能同時實現更高的生成效率與更優的輸出質量。



圖 1:MDMs 在 GSM8K (8-shot) 上的效率和準確率。(左) MDMs 相對于 Qwen2.5-7B 的表現。(右) MDMs 相對于其自身自回歸式解碼的表現。

這些觀察結果引出了一個核心問題:“離散擴散模型是否真的能提供比自回歸模型更好的權衡,即在保持高質量生成內容的同時實現更高的效率?” 這正是這項新研究試圖解答的關鍵。

北大團隊新研究:撥開迷霧,關鍵在評估指標

針對上述疑問,研究團隊對此進行了深入的理論剖析。他們的研究目標是 “對一種廣泛采用的變體 —— 掩碼擴散模型(MDM)進行嚴格的理論分析”,以探究觀測到的效率限制是否是其固有的缺陷。

這項研究的核心結論是,關于擴散模型與自回歸模型優劣的 “結論高度依賴于評估指標的選擇”。研究團隊采用了兩種互補的評估指標來全面衡量 MDM 的性能:

詞元錯誤率(TER):該指標量化了詞元級別的準確性,通常與生成文本的流暢度相關。在實踐中,困惑度(Perplexity)是衡量語言模型詞元級別錯誤的常用指標,因此論文中 TER 由困惑度定義。較低的 TER 通常意味著模型能生成更流暢、連貫的文本。

序列錯誤率(SER):該指標評估整個序列的正確性,這對于需要邏輯上完全正確的序列的推理任務(如解決數學問題、代碼生成)至關重要。

研究團隊首先分析了擴散語言模型以詞元錯誤率(TER)為主要衡量標準時的效率,即評估的重點在于生成文本的流暢度和連貫性。研究團隊證明目標是接近最優的困惑度時,MDM 可以在與序列長度無關的恒定采樣步數內實現這一目標。換而言之,為了達到理想的困惑度,MDM 所需的采樣步數并不隨序列長度的增加而增長,而是一個常數。這與自回歸模型形成了鮮明對比,后者必須執行序列長度的次數才能生成整個序列。因此,在生成長篇流暢文本等任務中,MDM 具備顯著的效率提升潛力。



這一定程度上解釋了為何 MDM 在 GSM8K 這類數學推理基準測試中表現不佳(如圖 1 所示)。數學推理要求思維鏈條的每一步都完美正確。SER 與 MDM 解決數學問題的準確性密切相關,因為錯誤的思維鏈通常會導致錯誤的答案。因此,MDM 難以在這類數學推理任務上取得效率優勢,從而解釋了觀察到的實驗現象。

除了理論分析,研究團隊又進一步在一些形式語言上驗證了這些理論結果,如下圖 2 所示。這些實驗結果再一次證明,當考慮詞元級別的錯誤率時,MDM 能夠展現出效率優勢,然而當使用序列級別錯誤率作為衡量指標時,MDM 則不如 AR 模型高效。



圖 2:MDMs 在形式語言上的表現。(上) MDMs 的困惑度與采樣步數的關系。(右) MDMs 序列錯誤率與采樣步數的關系。

結論:擴散語言模型,何時才是更優選?

那么,回到最初的問題:擴散語言模型真的會比自回歸模型更好嗎?這項研究給出的答案是:視情況而定,關鍵在于用什么樣的指標去衡量。 基于這項研究的理論分析和實驗結果,我們可以為實踐者提供以下的指導方針 。

當任務優先考慮生成文本的流暢性、高吞吐量,并且能夠容忍一定程度的序列級別不完美時,例如:長篇幅的創意寫作,其中整體的可讀性和連貫性比每一句話的絕對事實準確性更重要,在這些場景下,擴散語言模型能夠展現出效率的優勢。然而,當任務對序列級別的準確性和邏輯正確性有極高要求時,擴散語言模型為達到低 SER 所需的采樣步數隨序列長度線性增長,這抵消了其潛在的并行效率優勢,甚至可能因單步計算成本更高而變得更慢。此時,自回歸模型是更好的選擇。

這項研究為理解 MDM 的比較優勢和局限性奠定了首個堅實的理論基礎。當然,研究團隊也指出了當前工作的一些局限性,例如分析主要集中在形式語言上,未來需要將其擴展到更復雜的現代大語言模型;同時,分析主要針對掩碼擴散模型,其他類型的擴散模型的表現仍有待探索。

總而言之,擴散技術在圖像生成領域的巨大成功,并不意味著其優勢可以直接、簡單地平移到語言領域。語言的離散性和序列性帶來了獨特的挑戰,需要更細致和針對性的評估。這項研究以其嚴謹的理論和清晰的實驗,為我們揭示了擴散語言模型在效率與質量權衡上的復雜性,為整個領域的發展注入了重要的理性思考。對于追求特定目標的模型部署而言,理解這種權衡對于成本控制和用戶體驗都至關重要,錯誤的選擇可能導致用戶體驗不佳或不必要的計算資源浪費。最終,沒有絕對 “最好” 的模型,只有最適合特定任務和特定評估標準的模型。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
新疆12歲男孩撿1歲女嬰,18年后娶她為妻,找到妻子親生父母后傻了

新疆12歲男孩撿1歲女嬰,18年后娶她為妻,找到妻子親生父母后傻了

如煙若夢
2025-06-12 17:20:44
俞灝明太尷尬了!王曉晨回應和俞灝明結婚:我頭昏了大家開心就好

俞灝明太尷尬了!王曉晨回應和俞灝明結婚:我頭昏了大家開心就好

小咪侃娛圈
2025-06-12 15:08:26
越南正在發生巨變

越南正在發生巨變

17譚
2025-06-12 12:57:38
特朗普長子發文“讓屋頂的韓國人更加偉大”,引發韓國人震怒?

特朗普長子發文“讓屋頂的韓國人更加偉大”,引發韓國人震怒?

隨波蕩漾的漂流瓶
2025-06-12 16:00:08
71歲老帥留任!國足恥辱紀錄后,伊萬合同藏關鍵條件

71歲老帥留任!國足恥辱紀錄后,伊萬合同藏關鍵條件

老瑋是個手藝人
2025-06-13 02:21:12
印度墜機事故致超290人死亡!警方發現一名墜機幸存者:手持登機牌能行走,座位是11A!英國首相發聲

印度墜機事故致超290人死亡!警方發現一名墜機幸存者:手持登機牌能行走,座位是11A!英國首相發聲

每日經濟新聞
2025-06-13 00:15:07
震驚!網傳上海一知名企業裁員,要求員工配合離職,沒有經濟補償

震驚!網傳上海一知名企業裁員,要求員工配合離職,沒有經濟補償

火山詩話
2025-06-11 18:30:37
女子被射瞎最新進展,肇事男已經找到,家屬想出三十萬私了

女子被射瞎最新進展,肇事男已經找到,家屬想出三十萬私了

映射生活的身影
2025-06-11 17:51:27
王鈺棟:戰印尼那腳遠射感覺要進了;為老大哥們感到可惜

王鈺棟:戰印尼那腳遠射感覺要進了;為老大哥們感到可惜

懂球帝
2025-06-12 22:50:06
“鎖死”對華關稅?特朗普半場開香檳,中方直接扯下美方遮羞布

“鎖死”對華關稅?特朗普半場開香檳,中方直接扯下美方遮羞布

熱點網友
2025-06-12 22:53:00
張桂梅創辦女高17年,為何至今無一人考上清北?這個回答振聾發聵

張桂梅創辦女高17年,為何至今無一人考上清北?這個回答振聾發聵

娛樂故事
2025-06-12 12:25:19
三位港獨藝人妄圖內地撈金,遭遇滑鐵盧!演唱會取消,全面遭抵制

三位港獨藝人妄圖內地撈金,遭遇滑鐵盧!演唱會取消,全面遭抵制

歸史
2025-06-06 14:49:41
共和報:米蘭與馬競就特奧達成協議,以2300萬歐+獎金完成交易

共和報:米蘭與馬競就特奧達成協議,以2300萬歐+獎金完成交易

懂球帝
2025-06-12 11:31:40
為加速拋美債,344噸黃金運回中國,加州要獨立,關稅戰的水很深

為加速拋美債,344噸黃金運回中國,加州要獨立,關稅戰的水很深

紅色鑒史官
2025-04-15 12:10:03
武漢網紅花錢要李維剛刪除包殘疾人魚塘視頻,因為這會給當地抹黑

武漢網紅花錢要李維剛刪除包殘疾人魚塘視頻,因為這會給當地抹黑

映射生活的身影
2025-06-11 20:17:34
美媒痛心:特朗普成美國世紀終結者,而中國手里還有一張王牌沒用

美媒痛心:特朗普成美國世紀終結者,而中國手里還有一張王牌沒用

博覽歷史
2025-06-12 06:00:03
38.98萬元,斯巴魯純正瓦罐WRX Wagon tS上市,2.4T+CVT,充一波?

38.98萬元,斯巴魯純正瓦罐WRX Wagon tS上市,2.4T+CVT,充一波?

CLauto酷樂汽車
2025-06-12 23:46:33
北約“5%軍費”或對世界構成更大威脅

北約“5%軍費”或對世界構成更大威脅

環球時報國際
2025-06-12 10:44:14
一家獨大英超轉播收入高達33億鎊,超其他任何歐洲聯賽總收入

一家獨大英超轉播收入高達33億鎊,超其他任何歐洲聯賽總收入

直播吧
2025-06-12 16:50:24
俄報復第二階段,敖德薩港、杜布諾機場成轟炸中心,阻斷北約援助

俄報復第二階段,敖德薩港、杜布諾機場成轟炸中心,阻斷北約援助

菠蘿欣賞家本尊
2025-06-13 01:26:38
2025-06-13 03:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10630文章數 142337關注度
往期回顧 全部

科技要聞

一鏡雙目捅破天,華為最快明年Q2超越蘋果

頭條要聞

印度墜機幸存者:我站起來時周圍都是尸體 嚇壞了

頭條要聞

印度墜機幸存者:我站起來時周圍都是尸體 嚇壞了

體育要聞

沒有人會不喜歡TJ-麥康奈爾

娛樂要聞

鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊

財經要聞

787客機首起空難 波音飛機事故頻發引質疑

汽車要聞

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態度原創

本地
數碼
游戲
家居
公開課

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

數碼要聞

Anker因存在起火和燒傷風險召回超過110萬個移動電源

Epic喜加一:消磨時間佳作《雙點醫院》

家居要聞

精致奢華 豐富的連貫空間

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 齐齐哈尔市| 合川市| 青龙| 丽水市| 山丹县| 赣榆县| 饶平县| 赫章县| 仁怀市| 汉寿县| 吉水县| 淳安县| 万荣县| 九龙坡区| 莒南县| 新兴县| 乌拉特后旗| 共和县| 普定县| 营口市| 沂水县| 南丹县| 阿鲁科尔沁旗| 容城县| 当雄县| 绥芬河市| 日喀则市| 丁青县| 兴海县| 思茅市| 瑞安市| 双峰县| 黑龙江省| 波密县| 香港| 唐山市| 庆安县| 阿勒泰市| 京山县| 孟村| 南江县|