99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

策略學習助力LLM推理效率:MIT與谷歌團隊提出異步并行生成新范式

0
分享至




金天,麻省理工學院(MIT)計算機科學與人工智能實驗室(CSAIL)博士五年級學生,師從 Michael Carbin 和 Jonathan Ragan-Kelley。他主要研究機器學習與編程系統的結合。此前曾在 IBM Research 主導實現深度神經網絡在 IBM 主機上的推理部署。本科畢業于 Haverford College,獲計算機科學與數學雙學位。

鄭鈺熹,麻省理工學院 CSAIL 博士三年級學生,師從 Michael Carbin。她的研究方向為編程語言與機器學習的交叉領域。

大語言模型(LLM)的生成范式正在從傳統的「單人書寫」向「分身協作」轉變。傳統自回歸解碼按順序生成內容,而新興的異步生成范式通過識別語義獨立的內容塊,實現并行生成。



如圖所示,傳統方法(下)按順序生成所有內容,而異步生成(上)同時處理多個互不依賴的內容塊。對比順序生成,異步生成在 AlpacaEval 長度控制評測中實現1.21-1.93× 的幾何平均提速,對應生成質量變化(勝率)為 +2.2% 至 -7.1%。

MIT 與谷歌研究團隊在最新研究 PASTA(PArallel STructure Annotation)中首次從策略學習(policy learning)角度探索異步生成范式的可能。



  • 論文標題:Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding
  • 論文地址:https://arxiv.org/abs/2502.11517

研究團隊不依賴人工設計規則來識別異步生成機會,而通過策略學習讓模型自主發現并標注這些機會,系統地優化質量與速度的平衡。這種方法使 LLM 根據內容特點自適應地確定最佳異步生成策略,為生成效率優化開創學習驅動的全新路徑。

PASTA-LANG:劃分獨立內容的標記語言

研究人員首先開發了一種新的標記語言 PASTA-LANG,專為異步生成而設計。大模型使用它在生成過程中標記語義獨立塊,指示并行生成機會。這種語言包含三種核心標記:

  • :標記語義獨立的內容塊,通過 topic 屬性總結內容主題,大模型用它表明「這部分將會由一個獨立子線程異步生成」。
  • :在
  • 后標識對應的異步生成的內容,表示這一部分由獨立子線程負責生成。
  • :在主線程標記同步點,表明后續內容生成將會依賴于之前的異步生成,主線程需等待所有異步線程完成后才能繼續。

這些標記共同構成了一種「承諾-履行」的生成模式:大模型首先通過

標記「承諾」生成某些內容,推理系統再創建異步線程來「履行」這些承諾,最后在

處將異步內容組合。



如圖所示的線段長度計算案例展示了這一機制:面對計算任務(A),大模型首先識別出「坐標提取」和「長度公式」兩個可并行的獨立部分,生成相應的

標記(B),隨后用

標記(E)表明需要等待這些內容完成。圖中紅色和綠色區域(C、D)顯示了兩個異步線程并行生成的內容,最終在(F)處組合成完整解答。

這個新的標記語言簡單,可擴展性強,開啟了新的未來研究范式。

PASTA 訓練:從標注到優化的雙階段學習



如圖所示,PASTA 系統采用雙階段訓練流程,使大模型自主學習使用上述標記語言,完成異步生成。

第一階段:監督微調。研究團隊首先選取 SlimOrca 指令跟隨數據集,用 Gemini 1.5 Flash 為 100K 條樣本添加 PASTA-LANG 標記,在樣本回答中插入

標記,創建 PASTA 微調數據集。團隊隨后對 Gemma 7B 進行監督微調,得到能插入 PASTA-LANG 標記的 PASTA-SFT 模型。

第二階段:偏好優化。為優化標注策略,團隊設計了策略學習方案。團隊對每個樣本從 PASTA-SFT 模型采樣多種標注方案,然后基于兩項指標評估這些方案:理論加速比和內容質量(由 Gemini 1.5 Pro 評估)。根據評估結果,團隊構建「拒絕采樣數據集」,該數據集包含每個輸入的最佳和最差標注方案。最后,團隊用 BoNBoN 算法對 PASTA-SFT 模型進行偏好優化,得到最終的 PASTA 模型。

PASTA 推理系統:并行生成與緩存管理

推理系統設計難點。異步并行生成的主要挑戰在于如何協調多個線程高效協作。傳統方法通常需要為每個線程創建獨立的 KV 緩存池——創建新線程時必須復制主線程的前綴內容到子線程緩存池,完成后再復制結果回主線程。這兩次大規模矩陣復制操作嚴重限制了系統性能,使理論加速難以轉化為實際收益。

KV 緩存的存儲布局。PASTA 設計了交錯式 KV 緩存布局,所有線程共享單一連續內存池。系統初始以連續方式存儲用戶輸入,在推理過程中動態將不同線程在同一時間點生成的 token 交錯存儲在相鄰位置。

注意力控制與位置編碼。PASTA 通過兩個機制確保大模型正確理解多線程交錯存儲的 KV 緩存:

  • 注意力掩碼控制:限制子線程只能訪問與自己相關的內容,在
  • 后通過移除掩碼使主線程能訪問所有子線程生成的內容。
  • 位置編碼調整:每個線程都使用獨立且連續的位置編碼,使線程處理自己的內容時,將交錯存儲的內容視為邏輯上連續的序列,確保模型能正確理解上下文。

這些設計共同確保 PASTA 能在提高速度的同時保持輸出質量。

實驗結果:Pareto 最優與可擴展性

PASTA 在性能與質量的平衡上取得了突破性成果,實驗結果表明它不僅實現了顯著加速,還在某些情況下提高了輸出質量。研究團隊在 AlpacaEval 基準上進行了全面評估,該基準包含 805 個具有代表性的指令跟隨任務。





質量-速度平衡的 Pareto 前沿。如圖所示,PASTA 通過調節質量權重參數生成了一系列的模型。在不同的生成質量的情況下,PASTA 均能提供非常可觀的加速。結果顯示,即使最注重質量的 PASTA 模型也能提供顯著加速,而最快的模型則以一定的質量犧牲換取接近 2 倍的速度提升。與基于手動設計的異步生成方案(Skeleton-of-Thought, APAR)相比,PASTA 模型展現出全面優勢。

可擴展性。研究結果展示了 PASTA 方法出色的可擴展性,如圖所示。隨著偏好優化不斷推進,PASTA 模型的性能持續提升。圖中清晰展示了從第一輪開始到第一輪結束,再到第二輪開始和第二輪后半程的整個優化過程,質量-速度的 Pareto 前沿大體持續向右上方推進。

這種穩定的改進趨勢表明,PASTA 方法具有良好的可擴展性——隨著投入更多計算資源,仍未飽和。與傳統依賴固定規則的異步解碼方法不同,PASTA 通過策略學習驅動的訓練算法提供了可持續的優化路徑,能夠有效地將額外計算資源轉化為更高的推理效率。

總結與展望

PASTA 首次證明,通過策略學習讓 LLM 自主優化生成策略,能夠突破傳統自回歸和基于規則的異步生成的效率極限。這一工作不僅為實時大模型應用提供了實用加速方案,更印證了未來 LLM 可能具備推理時自我優化能力的發展方向。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
瑩瑩經紀人發聲:多次強調男性不能摸腿,穿裙子正常,猥褻零容忍

瑩瑩經紀人發聲:多次強調男性不能摸腿,穿裙子正常,猥褻零容忍

奇思妙想草葉君
2025-05-21 23:27:08
上海警方:女子劉某被采取刑事強制措施!起因是和老公吵架

上海警方:女子劉某被采取刑事強制措施!起因是和老公吵架

瀟湘晨報
2025-05-22 08:53:13
25歲女孩有50個男友,為錢與出租車司機車震,最后一次車震后被殺

25歲女孩有50個男友,為錢與出租車司機車震,最后一次車震后被殺

胖胖侃咖
2025-05-21 08:00:07
總決賽最新星獎神奇消失?CBA官方已取消:張鎮麟成唯一獲獎者!

總決賽最新星獎神奇消失?CBA官方已取消:張鎮麟成唯一獲獎者!

籃球快餐車
2025-05-22 03:01:26
局勢失控!以軍闖下大禍,殺了最不該殺的人,法英加3國發聲譴責

局勢失控!以軍闖下大禍,殺了最不該殺的人,法英加3國發聲譴責

要塞陣地官方
2025-05-22 10:16:04
廣西被查貪官家中發現很多金磚?官方辟謠

廣西被查貪官家中發現很多金磚?官方辟謠

上觀新聞
2025-05-22 07:00:04
曹穎帶貨兩年成交額就超5億,如今患癌,擔心沒人像親媽般對兒子

曹穎帶貨兩年成交額就超5億,如今患癌,擔心沒人像親媽般對兒子

萱小蕾o
2025-05-18 17:43:01
為什么如今的越來越多的男性,開始清醒,且開始擺爛

為什么如今的越來越多的男性,開始清醒,且開始擺爛

加油丁小文
2025-05-12 12:20:53
特朗普沒想到!訪華未果,中方卻接見另一位美國人物,信號不簡單

特朗普沒想到!訪華未果,中方卻接見另一位美國人物,信號不簡單

愛下廚的阿釃
2025-05-22 06:48:46
許利民動手清理門戶,隊內二老退位,內線頂薪交易否決權賴著不走

許利民動手清理門戶,隊內二老退位,內線頂薪交易否決權賴著不走

去山野間追風
2025-05-22 10:29:03
鳳姐最新訪談:40歲牙齒脫落后悔出名,認為當初被電視節目糟蹋了

鳳姐最新訪談:40歲牙齒脫落后悔出名,認為當初被電視節目糟蹋了

漢史趣聞
2025-05-20 11:31:53
體制內過緊日子了,怎么辦?

體制內過緊日子了,怎么辦?

覺叔說
2025-05-21 16:42:14
首位美籍教皇加冕!拒絕三重冕釋放改革信號,中梵協議談崩成焦點

首位美籍教皇加冕!拒絕三重冕釋放改革信號,中梵協議談崩成焦點

紀中百大事
2025-05-22 10:30:03
他回來了!劉國梁督戰國乒,王勵勤讓C位,見證孫穎莎王曼昱大勝

他回來了!劉國梁督戰國乒,王勵勤讓C位,見證孫穎莎王曼昱大勝

嘴炮體壇
2025-05-22 02:06:04
南京市人民政府通知

南京市人民政府通知

黃河新聞網呂梁頻道
2025-05-22 11:12:26
男子面試了一家公司,看到工位天塌了!網友: 牛馬槽子具象化了

男子面試了一家公司,看到工位天塌了!網友: 牛馬槽子具象化了

有趣的火烈鳥
2025-05-21 14:35:18
天塌了!澳洲情侶在朋友農場建小房子住,竟收到$100萬罰單?!

天塌了!澳洲情侶在朋友農場建小房子住,竟收到$100萬罰單?!

澳洲紅領巾
2025-05-22 10:59:21
中國一男子靠看“成人片”學日語,獲日語N2級證書,自稱看過4500余部

中國一男子靠看“成人片”學日語,獲日語N2級證書,自稱看過4500余部

西游日記
2025-05-20 17:34:05
95年我娶了鄰村的母夜叉,洞房夜她摘下面紗后說:你10年前救過我

95年我娶了鄰村的母夜叉,洞房夜她摘下面紗后說:你10年前救過我

白云故事
2025-05-18 17:45:03
奇跡!5分鐘連進6個三分!東決第一神將庫里附體,逆天翻盤立頭功

奇跡!5分鐘連進6個三分!東決第一神將庫里附體,逆天翻盤立頭功

嘴炮體壇
2025-05-22 11:26:02
2025-05-22 14:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10510文章數 142318關注度
往期回顧 全部

科技要聞

中國科學界ChatGPT來了,70萬科研人涌入

頭條要聞

長和再回應港口交易:在交易沒被批準之前絕不會實施

頭條要聞

長和再回應港口交易:在交易沒被批準之前絕不會實施

體育要聞

威少被交易時,雷霆下一個MVP已在陣中

娛樂要聞

朱媛媛喪事一切從簡,親戚剛知她去世

財經要聞

中國,拋售美債!

汽車要聞

配1.5T插混/2000km續航 一汽奔騰悅意07即將上市

態度原創

親子
游戲
數碼
家居
健康

親子要聞

河南夫妻生下黑寶寶,6次親子鑒定都是親生,妻子只好說出真實情況

PlayStation 618 限時優惠正式啟動 解鎖次世代娛樂新體驗

數碼要聞

華碩 ROG Strix OLED XG34WCDMTG 顯示器亮相

家居要聞

木質極簡 居家與辦公的現實之境

唇皰疹和口腔潰瘍是"同伙"嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 浦江县| 望都县| 丽江市| 高唐县| 远安县| 高安市| 文山县| 当雄县| 林芝县| 洛隆县| 永靖县| 赫章县| 元谋县| 昭通市| 大渡口区| 巧家县| 永城市| 宣汉县| 那坡县| 镇原县| 和田市| 绥阳县| 兖州市| 崇仁县| 临江市| 武陟县| 平阳县| 元氏县| 达州市| 塔河县| 子洲县| 永新县| 博野县| 吉水县| 剑河县| 顺昌县| 邻水| 车致| 水城县| 靖江市| 武鸣县|