99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

逐個token太慢!大模型原生并行出token,CMU、英偉達Multiverse

0
分享至

機器之心報道

編輯:陳陳、澤南

原生并行生成不僅僅是加速,它是我們對 LLM 推理思考方式的根本轉變。

眾所周知,大語言模型的參數量越來越大,算力需求也越來越可怕,然而因為「祖宗之法」,推理只能一個一個 token 按順序來。

對此,卡耐基梅隆大學(CMU)Infini-Al-Lab 的研究人員拿出了「多元宇宙」Multiverse,這是一個全新的生成式建??蚣?,支持原生的并行生成。



參與這項研究的機器學習大佬,CMU 助理教授陳天奇表示,這是一個有前途的大方向。



該研究的一作 Xinyu Yang 表示,Multiverse 的原生并行生成不僅僅是加速——它是我們對 LLM 推理思考方式的根本轉變。更讓人興奮的是,除了優化現有模型之外,他們發現還可以借助系統級洞察來發現更好的模型架構。

當前主流的大語言模型(如 GPT 系列等)大多采用自回歸(Autoregressive)生成方式。這種方式通過逐個生成下一個 token,依賴于之前生成的所有內容,從而保證生成的連貫性和邏輯性。然而,這種順序生成的方式存在明顯的局限性,比如無法利用現代硬件(如 GPU)的并行計算能力,導致生成速度較慢。

與自回歸生成不同,并行生成可以同時處理多個子任務,顯著提高生成效率和速度。例如,擴散模型(Diffusion Models)和一致性模型(Consistency Models)等非自回歸架構能夠并行生成多個詞,從而大幅減少生成時間。

然而,現有的并行生成模型(如擴散模型)通常采用暴力并行化方法,忽略了生成過程中的邏輯依賴關系,導致生成結果可能缺乏連貫性或邏輯性。部分原因在于缺乏現實訓練數據來指導何時及如何進行并行生成。

這就引出了一個核心問題:如何設計能同時滿足 1)自適應任務拆分合并、2)無損保留內部狀態、3)普適適配多種并行模式的 LLM 建??蚣埽?/p>

由于自回歸大語言模型(AR-LLMs)現在占據主導地位,并且 AR-LLMs 在順序生成過程中經常表現出隱含的并行性。

因此,來自 CMU、英偉達的研究者們通過揭示這些模型序列化輸出中蘊含的豐富內在并行性來展開研究。



  • 論文地址:https://arxiv.org/pdf/2506.09991v2
  • 項目地址:https://github.com/Multiverse4FM/Multiverse
  • 項目主頁:https://multiverse4fm.github.io/
  • 論文標題: Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

本文提出了 Multiverse,這是一個能夠實現原生并行生成的新型生成模型。

隨后,本文通過數據、算法和系統的協同設計構建了一個現實世界的 Multiverse 推理模型,從而能夠快速且無縫地從前沿的 AR-LLMs 進行轉換。

預算控制實驗表明,Multiverse-32B 在使用相同上下文長度的情況下,平均性能比 AR-LLMs 高出 1.87%,展現出更優越的擴展性。這種擴展性進一步帶來了實際的效率提升,在不同 batch size 下實現了高達兩倍的速度提升。

此外,作者已經開源了整個 Multiverse 生態系統,包括數據、模型權重、引擎、支持工具,以及完整的訓練細節與評估方案。

長 CoT 生成:邏輯上是順序的還是并行的?

本文首先基于 s1K-1.1 數據集,對 Deepseek R1 和 Gemini 2.0 Flash Thinking 等自回歸大語言模型(AR-LLM)的長 CoT 展開分析。

結果發現可并行分支的存在。

這些分支揭示了 AR-LLM 內在的并行特性。如圖 2 所示,它們被劃分為集體型與選擇型兩類,能以連續或遞歸結構靈活呈現。



更進一步的,表 1 統計數據顯示:在 AR-LLM 生成的長 CoT 軌跡中,并行分支普遍存在。



Multiverse 框架

根據上述發現,本文提出了 Multiverse,這是一個基于 MapReduce 范式構建的新型生成建模框架,它自適應地并行化并無損合并其生成以超越 AR 模型。

如圖 4 所示,該框架采用 MapReduce 結構,內部包含三個階段:



Multiverse 內部集成了 MapReduce 范式,通過三個階段自動完成生成:

(i)Map 階段,用于自適應的任務分解;

(ii)Process 階段,用于并行的子任務執行;

(iii)Reduce 階段,用于無損的結果合成。

為實現對生成流的自動化控制,Multiverse 進一步采用了一套結構化專用控制標簽來明確定義每個 MapReduce 模塊。如圖 5 所示。



構建一個真實世界 Multiverse 模型

為了將 Multiverse 部署到實際場景中,該工作提供了一套完整的套件,其中包括 Multiverse Curator(數據生成器)、Multiverse Attention(核心算法)和 Multiverse Engine(優化系統)。該套件能夠實現從領先的 AR 模型到 Multiverse 模型的平滑快速遷移。



數據。本文開發了 Multiverse Curator,這是一個自動化的 LLM 輔助流程,它通過五個步驟將順序推理鏈轉換為并行結構。

算法設計。本文設計了 Multiverse Attention,以實現并行生成,同時保持訓練效率。這是通過修改注意力掩碼和位置嵌入來實現的,從而在注意力計算中嚴格區分獨立的推理分支,這些分支可以并行訓練,類似于因果注意力機制。

系統實現。本文實現了 Multiverse Engine,它配備了一個專門的解釋器來支持 MapReduce 的執行。通過解釋 Multiverse 模型生成的控制標簽, Multiverse Engine 可以在順序生成和并行生成之間動態切換,且不會產生任何開銷,從而實現靈活的工作流程。

實驗

真實世界推理性能

如表 2 所示,本文報告了 Multiverse-32B 模型在 32K 上下文長度下的復雜推理任務表現。在經過微調后,該模型在各項基準測試中相較 Qwen2.5-32B-Instruct 模型分別提升了 38%、35%、11% 和 14%。值得注意的是,與 Autoregressive-32B 的對比實驗表明,Multiverse-32B 達到甚至超越了自回歸模型的性能水平。

本文還評估了 Multiverse-32B-Zero 結果,這是一個未使用并行思考指令提示的變體。比較這兩個變體,可以發現截然不同的性能模式:Multiverse-32B 在 AIME 任務上實現了更高的并行性,從而略微提升了性能;而 Multiverse-32B-Zero 在需要較短生成序列的任務上表現更佳。



擴展性能

為了凸顯并行生成的優勢,本文在 GPQA-Diamond 和 MATH500 上進行了預算控制實驗。如圖 7 所示,雖然更長的上下文提升了兩個模型的性能,但 Multiverse-32B 在相同的上下文長度內生成了更多 Token。這種并行擴展使 GPQA-Diamond 的性能提升了 2.23%(并行數量 = 1.17),MATH500 的性能提升了 1.51%(并行數量 = 1.15)。



效率分析

圖 8a 結果表明,Multiverse 通過提升并行度顯著增強了生成效率。

圖 8b 結果表明,隨著 batch size 從 1 增加到 128,生成過程依然受限于內存帶寬。因此,Multiverse 的加速比隨著并行度的提升呈線性增長,在多種配置下都展現出出色的可擴展性。



更多細節請查看論文原文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
共和報:奧斯梅恩傾向于在今夏轉會至英超,尤其是加盟曼聯

共和報:奧斯梅恩傾向于在今夏轉會至英超,尤其是加盟曼聯

懂球帝
2025-06-17 23:35:18
圖集|巴黎航展:“20家族”戰機集結,殲-35A首次亮相

圖集|巴黎航展:“20家族”戰機集結,殲-35A首次亮相

澎湃新聞
2025-06-17 18:32:32
許家屯:被英國收買,貪腐賣國,被調查時攜女人叛逃,結局如何?

許家屯:被英國收買,貪腐賣國,被調查時攜女人叛逃,結局如何?

阿胡
2024-12-11 12:11:31
我調任雙峰縣縣委書記后,發現被雙規的前任縣委書記是冤枉的

我調任雙峰縣縣委書記后,發現被雙規的前任縣委書記是冤枉的

喬生桂
2024-12-14 12:06:19
美媒:“由于中東局勢”,特朗普將提前離開G7峰會并返回美國

美媒:“由于中東局勢”,特朗普將提前離開G7峰會并返回美國

環球網資訊
2025-06-17 08:40:47
李平康:國安云集了中國足球廢柴年齡組眾多精英 反彈的僅范雙杰

李平康:國安云集了中國足球廢柴年齡組眾多精英 反彈的僅范雙杰

直播吧
2025-06-17 22:21:21
不許石油過境,中俄分歧擺到臺面,一架專機將離京,中核集團牽頭

不許石油過境,中俄分歧擺到臺面,一架專機將離京,中核集團牽頭

科技處長
2025-06-17 20:22:20
浙江錢老板52萬婚席賴賬后續!身份曝光!網友爆料:居然是慣犯?

浙江錢老板52萬婚席賴賬后續!身份曝光!網友爆料:居然是慣犯?

面包夾知識
2025-06-16 16:29:12
2cm傳聞改變星途?河堤小生被gay大佬掰彎!

2cm傳聞改變星途?河堤小生被gay大佬掰彎!

毒舌八卦
2025-06-16 13:52:25
特朗普將提前結束G7行程回國,韓媒:李在明和特朗普會晤計劃恐落空

特朗普將提前結束G7行程回國,韓媒:李在明和特朗普會晤計劃恐落空

環球網資訊
2025-06-17 10:58:13
63歲吳鎮宇新造型絕了,沒有老人味還越來越年輕了,至少年輕30歲

63歲吳鎮宇新造型絕了,沒有老人味還越來越年輕了,至少年輕30歲

手工制作阿殲
2025-06-15 08:44:14
0-2完敗!世俱杯最慘東道主?3隊首輪1平2負進1球 小組出線太難了

0-2完?。∈谰惚顟K東道主?3隊首輪1平2負進1球 小組出線太難了

狍子歪解體壇
2025-06-17 05:04:20
不許石油過境,中俄分歧擺上臺面,一架專機將離京,中核集團牽頭

不許石油過境,中俄分歧擺上臺面,一架專機將離京,中核集團牽頭

跳跳歷史
2025-06-17 16:23:12
51歲劉強東談首次退休,為此去哥大上學:當時太理想主義

51歲劉強東談首次退休,為此去哥大上學:當時太理想主義

揚子晚報
2025-06-17 21:09:48
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
伊朗多名內奸被絞死,投降派身亡,德黑蘭暴揍以色列再無后顧之憂

伊朗多名內奸被絞死,投降派身亡,德黑蘭暴揍以色列再無后顧之憂

書中自有顏如玉
2025-06-17 22:38:10
以色列女兵為何總穿緊身褲?人人網紅,堪比大片!

以色列女兵為何總穿緊身褲?人人網紅,堪比大片!

健身迷
2025-05-12 09:58:09
突發!油價飆漲!歐盟:計劃徹底停止進口俄羅斯石油!

突發!油價飆漲!歐盟:計劃徹底停止進口俄羅斯石油!

證券時報e公司
2025-06-17 22:46:25
李在明上臺掌權才幾天,中國先等來的,是韓國的“強硬態度”

李在明上臺掌權才幾天,中國先等來的,是韓國的“強硬態度”

素年文史
2025-06-18 00:20:03
薩巴倫卡:我對法網決賽負高芙后的言論后悔 ,表現得很不理智

薩巴倫卡:我對法網決賽負高芙后的言論后悔 ,表現得很不理智

直播吧
2025-06-17 17:04:41
2025-06-18 02:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10663文章數 142339關注度
往期回顧 全部

科技要聞

51歲劉強東談幾年前"退休":當時太理想主義

頭條要聞

救護車轉運重癥患兒800公里收費28000元 衛健委回應

頭條要聞

救護車轉運重癥患兒800公里收費28000元 衛健委回應

體育要聞

杰威40+6雷霆3-2步行者 SGA31+10

娛樂要聞

重男輕女還雌競?朱丹行為引爭議

財經要聞

白酒股崩了,誰在“拋棄”茅臺?

汽車要聞

高級感拉滿 極氪9X全新配色“極晝白”亮相

態度原創

本地
教育
親子
藝術
房產

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

教育要聞

貴州元寶村小學支教流水賬(Day1)

親子要聞

女兒把所有的積蓄給我買了一個榴蓮

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 上栗县| 清徐县| 凉山| 岚皋县| 故城县| 荃湾区| 如东县| 崇左市| 噶尔县| 昌江| 上栗县| 蒙城县| 钦州市| 金川县| 芒康县| 阿图什市| 如皋市| 孟津县| 营口市| 铜梁县| 通州区| 巴青县| 弥勒县| 永德县| 民县| 浠水县| 商城县| 铜陵市| 永康市| 盘锦市| 宽甸| 德令哈市| 辽宁省| 岳阳市| 凤阳县| 手游| 镇原县| 陆河县| 吉安市| 平定县| 左贡县|