網易首頁 > 網易號 > 正文申請入駐

北大DeepSeek論文或預定ACL Best Paper！梁文鋒署名

2025-05-19 09:09:27　來源: 新智元

北京舉報

分享至

新智元報道

編輯：定慧好困

【新智元導讀】北大DeepSeek聯合發布的NSA論文，目前已被ACL 2025錄用并獲得了極高評分，甚至有望沖擊最佳論文獎。該技術顛覆傳統注意力機制，實現算力效率飛躍，被譽為長文本處理的革命性突破。

重磅驚喜！

，將有望斬獲ACL 2025最佳論文（ACL Best Paper）。

論文地址：https://arxiv.org/abs/2502.11089

要知道，總投稿數高達8000多篇，創歷史之最，而ACL 2024總投稿數僅為4407，幾乎翻倍！

原生稀疏注意力（Native Sparse Attention，NSA）論文的Meta Review的OA分數已經確認得到了4.5分，這是一個相當高的分數，滿分為5分。

按照ACL的OA評分標準，4.5分已經獲得了Borderline Award，也就是說非常有望獲得ACL這屆的最佳論文。

這篇論文的發布在當時引起廣泛的社區關注，NSA把AI行業的焦點從「模型規模競賽」拉向「算力效率競賽」，堪稱2025年上半年最具杠桿效應的底層技術突破之一。

DeepSeek-R1的發布引發了AI行業的「價值重估」，DeepSeek用「低成本+同效能」的開源技術撼動了當時AI界人們固有的「有卡才行」的認知。

而NSA技術進一步實現了「長下文的算力平權」，讓開源模型也能達到閉源模型（ChatGPT、Gemini等）才能滿足的上下文窗口。

NSA將長文本處理速度提高了最多11倍，該方法結合了算法創新和改進的硬件，提高效率而不用犧牲硬件性能。

NSA的出現，是對傳統注意力機制的一次革新，傳統模型依賴于全注意力機制，將每個Token與其他所有Token進行比較。

傳統機制雖然對于短篇文本有效，但隨著文本長度的增加，這一過程會顯著變慢，并且計算成本變得非常高。

NSA是DeepSeek-R1「爆火出圈」后的第一篇論文，同時在NSA發布一周后，DeepSeek進行了更廣為人知的「開源周」活動分享。

硬件對齊與原生可訓練稀疏注意力

為什么要革新傳統的注意力機制？

長文本處理能力是新一代語言模型的關鍵需求，但傳統注意力機制帶來的巨大計算開銷一直是一個棘手的問題。

在這種背景下，稀疏注意力機制展現出了提升計算效率同時又能保持模型性能的巨大潛力。

北大和DeepSeek提出名為NSA的創新性稀疏注意力機制，它能夠原生支持訓練，通過將算法創新與硬件優化相結合，實現了高效的長文本處理。

NSA采用了動態分層的稀疏策略：在保證全局信息獲取的同時，還能夠精確捕捉局部細節，這得益于其巧妙結合了粗粒度的令牌壓縮和細粒度的令牌選擇。

NSA架構如下圖所示，通過三條并行的注意力分支來處理輸入序列。對于每一個查詢（query），前面的鍵（key）和值（value）會分別被處理成三種不同的注意力方式：

壓縮注意力（Compressed Attention），用于捕捉粗粒度的整體模式；
選擇性注意力（Selected Attention），專注于重要的詞塊；
滑動注意力（Sliding Attention），負責獲取局部上下文信息。

每條分支所生成的不同注意力模式。圖中的綠色區域表示需要計算注意力分數的部分，而白色區域則是可以跳過、不計算的區域。

NSA的主要創新點有兩個：一是通過精心設計的算法平衡了計算密度，并針對現代硬件做了專門優化，顯著提升了運行速度；二是實現了端到端的訓練模式，在確保模型性能的前提下大幅降低了預訓練的計算量。

如圖1所示，實驗結果顯示：采用NSA預訓練的模型在通用基準測試、長文本處理和指令推理等多個任務上，性能均達到或超過了使用完整注意力機制的模型。

此外，在處理64k長度序列時，無論是decoding、前向傳播還是反向傳播，NSA都展現出了顯著的速度優勢，充分證明了它在模型全生命周期中的高效性。

該論文第一作者為北京大學計算機學院碩士生袁境陽（北京大學，導師為張銘教授），合作者包括高華佐（DeepSeek），代達勱（DeepSeek），羅鈞宇（北京大學）、肖之屏（華盛頓大學）等。

通訊作者為梁文鋒（DeepSeek），曾旺丁（DeepSeek），張銘教授（北京大學）。

錄用論文一覽

除了NSA論文外，北京大學張銘教授團隊的其他論文也同樣上榜。

數據為中心視角下大模型的高效后訓練

論文名: A Survey on Efficient LLM Training: From Data-centric Perspectives

這是首個從數據中心視角系統性剖析LLM高效后訓練的綜述。

該文創新性地提出了一個涵蓋數據選擇、質量增強、合成數據生成、數據蒸餾與壓縮及自演化數據生態的分類框架，深入總結了各領域代表性方法并展望未來研究方向，旨在為學界和業界探索大規模模型訓練中數據利用的最大潛力提供關鍵啟示。

該論文作者包含羅鈞宇（北京大學，導師為張銘教授），吳伯涵（北京大學），羅霄（UCLA），肖之屏（華盛頓大學），靳軼喬（佐治亞理工），涂榮成（南洋理工大學），尹楠（HKUST），王一帆（對外經貿），袁境陽（北京大學），琚瑋（四川大學），張銘（北京大學，通訊作者）。

首個金融多模態評估數據集FinMME

論文名：FinMME: A Financial Multi-Modal Evaluation Dataset

為應對金融領域多模態大模型評估的迫切需求，并提供高質量的多模態推理驗證數據集。

北京大學Dlib實驗室聯合香港科技大學等重磅推出了首個大規模、高質量的金融多模態評估數據集FinMME。

該數據集包含超過11,200個金融研究樣本，覆蓋18個核心金融領域和10種主要圖表類型，并引入獨創的FinScore評估系統。

實驗結果表明，即便是頂尖模型如GPT-4o在FinMME上也面臨顯著挑戰，凸顯了其在衡量金融多模態理解與推理能力方面的深度與價值。

論文作者包含羅鈞宇（北京大學，導師為張銘教授），寇智卓（HKUST），楊禮銘（北京大學），羅霄（UCLA），黃進晟（北京大學），肖之屏（華盛頓大學），彭靖姝（HKUST），劉程中（HKUST），吉嘉銘（HKUST），劉譞哲（北京大學），韓斯睿（HKUST），張銘（北京大學，通訊作者），郭毅可（HKUST）。

大語言模型中的數學推理增強方法

該論文涉及大語言模型中的數學推理增強方法。思維鏈（CoT）提示已成為激發大語言模型（LLM）推理能力的核心方法，但其生成的推理步驟中存在難以檢測的「幻覺」。

現有的消除大語言模型幻覺的方法如過程獎勵模型（Process Reward Model）或自一致性校驗如同黑箱操作，難以提供可驗證的證據，制約了糾正幻覺的能力。

論文提出一種創新的Safe驗證框架。區別于傳統模糊評分機制，Safe創新性地證明驗證定理的正確性，從根本上識別并消除幻覺。實驗表明，本論文提出的Safe驗證框架在多個數學模型和數據集上實現顯著性能提升，實現神經符號系統在數學推理中的有機融合。

本研究回歸了形式數學語言的初衷——為人類易錯的證明過程提供堅實保障。Safe框架為數學教育、代碼生成等高風險領域提供了可驗證的推理解決方案。

該論文第一作者為數據科學與工程所博士生劉成武（北京大學，導師為張銘教授），合作者包括袁野（北京大學）、尹伊淳（華為諾亞方舟實驗室）、許妍（華為諾亞方舟實驗室）、許鑫（香港科技大學）、陳造宇（香港理工大學）、尚利峰（華為諾亞方舟實驗室）、劉群（華為諾亞方舟實驗室）、張銘（北京大學，通訊作者）。

基于大語言模型的交通流量預測方法

論文名: Embracing Large Language Models in Traffic Flow Forecasting

交通流量預測旨在基于歷史交通狀況和路網結構，預測未來交通流量，這是智能交通系統中的關鍵問題。

現有方法主要聚焦于捕捉和利用時空依賴性來進行流量預測，盡管取得了一定進展，但在面對測試時交通條件變化時表現不足。

針對這一挑戰，本文提出了一種基于大語言模型（LLM）的新方法——LEAF (Large Language Model Enhanced Traffic Flow Predictor)。

與以往工作主要使用LLM的生成能力來直接生成未來交通流量序列不同，LEAF使用LLM的判別能力。

具體來說，LEAF采用雙分支結構，分別通過圖結構和超圖結構捕捉不同的時空關系。兩個分支在預訓練階段獨立訓練，并在測試時生成不同的預測結果。

隨后，利用大語言模型從這些預測中選擇最有可能的結果，并通過排序損失函數作為學習目標來增強兩個分支的預測能力。在多個數據集上的廣泛實驗驗證了LEAF的有效性，證明其在流量預測任務中能夠更好地適應測試環境變化。

該論文第一作者為數據科學與工程所博士生趙禹昇（北京大學，導師為張銘教授），合作者包括羅霄（加州大學洛杉磯分校）、溫浩珉（卡耐基梅隆大學）、肖之屏（華盛頓大學）、琚瑋（四川大學），張銘（北京大學，通訊作者）。

作者介紹

袁境陽

北京大學計算機學院研究生，導師為張銘教授。

主要研究方向是高效大語言模型和稀疏注意力機制，曾獲北京市優秀畢業生、北京大學優秀畢業生等稱號。

羅鈞宇

北京大學計算機學院博士生，導師為張銘教授。

他的研究方向關注于高效的LLM、LLM后訓練、自適應學習等。

在ICML，CVPR，ACL，TPAMI等頂級刊物上以第一作者發表多篇文章。

趙禹昇

北京大學計算機學院研究生，導師為張銘教授。

研究方向包括圖神經網絡、時空預測、多模態等，關注測試數據的分布偏移問題。

劉成武

北京大學計算機學院數據科學與工程所博士生，導師是DLIB實驗室的張銘教授。

他的研究方向是自然語言處理、大語言模型的數學推理和自動定理證明。

他在北京大學外國語學院獲得了文學學士學位，并修讀獲得了信息科學技術學院的計算機科學與技術雙學位。

張銘

北京大學計算機學院二級教授，博士生導師，北大-安克大模型算法與應用聯合實驗室主任。2021年CCF杰出教育獎獲得者。

張銘教授本碩博都畢業于北京大學計算機系，長期致力于機器學習、圖神經網絡、知識圖譜、文本挖掘、語言模型、推薦系統、教育大數據、科學智能等相關研究。

先后主持國家重點研發計劃課題、國家自然科學基金等前沿項目，發表科研論文 300 多篇，谷歌學術被引用21800余次。合作提出的LINE模型是圖機器學習領域著名的的基準模型，目前單篇被引用 6700 余次。

獲得了機器學習頂級會議ICML 2014唯一的最佳論文獎，以及WWW 2016 最佳論文提名。

在近期利用率僅為20%左右的幾大頂會中，張銘教授的課題組的中概率都在50%以上。

其中，在ICML 2025中了4篇論文。

AAAI 2025也是5篇上榜。

還有ICLR 1篇，KDD 1篇，NAACL 1篇主會 2篇Finding。

參考資料：

https://luo-junyu.github.io

https://pkudlib.github.io/

https://mp.weixin.qq.com/s/nvjSyUBR4DBBQgF1e1OwsQ

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.