99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

北大DeepSeek論文或預定ACL Best Paper!梁文鋒署名

0
分享至


新智元報道

編輯:定慧 好困

【新智元導讀】北大DeepSeek聯合發布的NSA論文,目前已被ACL 2025錄用并獲得了極高評分,甚至有望沖擊最佳論文獎。該技術顛覆傳統注意力機制,實現算力效率飛躍,被譽為長文本處理的革命性突破。

重磅驚喜!

,將有望斬獲ACL 2025最佳論文(ACL Best Paper)。


論文地址:https://arxiv.org/abs/2502.11089

要知道,總投稿數高達8000多篇,創歷史之最,而ACL 2024總投稿數僅為4407,幾乎翻倍!


原生稀疏注意力(Native Sparse Attention,NSA)論文的Meta Review的OA分數已經確認得到了4.5分,這是一個相當高的分數,滿分為5分。



按照ACL的OA評分標準,4.5分已經獲得了Borderline Award,也就是說非常有望獲得ACL這屆的最佳論文。


這篇論文的發布在當時引起廣泛的社區關注,NSA把AI行業的焦點從「模型規模競賽」拉向「算力效率競賽」,堪稱2025年上半年最具杠桿效應的底層技術突破之一。

DeepSeek-R1的發布引發了AI行業的「價值重估」,DeepSeek用「低成本+同效能」的開源技術撼動了當時AI界人們固有的「有卡才行」的認知。


而NSA技術進一步實現了「長下文的算力平權」,讓開源模型也能達到閉源模型(ChatGPT、Gemini等)才能滿足的上下文窗口。

NSA將長文本處理速度提高了最多11倍,該方法結合了算法創新和改進的硬件,提高效率而不用犧牲硬件性能。

NSA的出現,是對傳統注意力機制的一次革新,傳統模型依賴于全注意力機制,將每個Token與其他所有Token進行比較。

傳統機制雖然對于短篇文本有效,但隨著文本長度的增加,這一過程會顯著變慢,并且計算成本變得非常高。

NSA是DeepSeek-R1「爆火出圈」后的第一篇論文,同時在NSA發布一周后,DeepSeek進行了更廣為人知的「開源周」活動分享。


硬件對齊與原生可訓練稀疏注意力

為什么要革新傳統的注意力機制?

長文本處理能力是新一代語言模型的關鍵需求,但傳統注意力機制帶來的巨大計算開銷一直是一個棘手的問題。

在這種背景下,稀疏注意力機制展現出了提升計算效率同時又能保持模型性能的巨大潛力。

北大和DeepSeek提出名為NSA的創新性稀疏注意力機制,它能夠原生支持訓練,通過將算法創新與硬件優化相結合,實現了高效的長文本處理。

NSA采用了動態分層的稀疏策略:在保證全局信息獲取的同時,還能夠精確捕捉局部細節,這得益于其巧妙結合了粗粒度的令牌壓縮和細粒度的令牌選擇。

NSA架構如下圖所示,通過三條并行的注意力分支來處理輸入序列。對于每一個查詢(query),前面的鍵(key)和值(value)會分別被處理成三種不同的注意力方式:

  • 壓縮注意力(Compressed Attention),用于捕捉粗粒度的整體模式;

  • 選擇性注意力(Selected Attention),專注于重要的詞塊;

  • 滑動注意力(Sliding Attention),負責獲取局部上下文信息。

每條分支所生成的不同注意力模式。圖中的綠色區域表示需要計算注意力分數的部分,而白色區域則是可以跳過、不計算的區域。


NSA的主要創新點有兩個:一是通過精心設計的算法平衡了計算密度,并針對現代硬件做了專門優化,顯著提升了運行速度;二是實現了端到端的訓練模式,在確保模型性能的前提下大幅降低了預訓練的計算量。

如圖1所示,實驗結果顯示:采用NSA預訓練的模型在通用基準測試、長文本處理和指令推理等多個任務上,性能均達到或超過了使用完整注意力機制的模型。

此外,在處理64k長度序列時,無論是decoding、前向傳播還是反向傳播,NSA都展現出了顯著的速度優勢,充分證明了它在模型全生命周期中的高效性。


該論文第一作者為北京大學計算機學院碩士生袁境陽(北京大學,導師為張銘教授),合作者包括高華佐(DeepSeek),代達勱(DeepSeek),羅鈞宇(北京大學)、肖之屏(華盛頓大學)等。

通訊作者為梁文鋒(DeepSeek),曾旺丁(DeepSeek),張銘教授(北京大學)。


錄用論文一覽

除了NSA論文外,北京大學張銘教授團隊的其他論文也同樣上榜。


數據為中心視角下大模型的高效后訓練

論文名: A Survey on Efficient LLM Training: From Data-centric Perspectives

這是首個從數據中心視角系統性剖析LLM高效后訓練的綜述。

該文創新性地提出了一個涵蓋數據選擇、質量增強、合成數據生成、數據蒸餾與壓縮及自演化數據生態的分類框架,深入總結了各領域代表性方法并展望未來研究方向,旨在為學界和業界探索大規模模型訓練中數據利用的最大潛力提供關鍵啟示。


該論文作者包含羅鈞宇(北京大學,導師為張銘教授),吳伯涵(北京大學),羅霄(UCLA),肖之屏(華盛頓大學),靳軼喬(佐治亞理工),涂榮成(南洋理工大學),尹楠(HKUST),王一帆(對外經貿),袁境陽(北京大學),琚瑋(四川大學),張銘(北京大學,通訊作者)。

首個金融多模態評估數據集FinMME

論文名:FinMME: A Financial Multi-Modal Evaluation Dataset

為應對金融領域多模態大模型評估的迫切需求,并提供高質量的多模態推理驗證數據集。

北京大學Dlib實驗室聯合香港科技大學等重磅推出了首個大規模、高質量的金融多模態評估數據集FinMME。

該數據集包含超過11,200個金融研究樣本,覆蓋18個核心金融領域和10種主要圖表類型,并引入獨創的FinScore評估系統。

實驗結果表明,即便是頂尖模型如GPT-4o在FinMME上也面臨顯著挑戰,凸顯了其在衡量金融多模態理解與推理能力方面的深度與價值。



論文作者包含羅鈞宇(北京大學,導師為張銘教授),寇智卓(HKUST),楊禮銘(北京大學),羅霄(UCLA),黃進晟(北京大學),肖之屏(華盛頓大學),彭靖姝(HKUST),劉程中(HKUST),吉嘉銘(HKUST),劉譞哲(北京大學),韓斯睿(HKUST),張銘(北京大學,通訊作者),郭毅可(HKUST)。

大語言模型中的數學推理增強方法

該論文涉及大語言模型中的數學推理增強方法。思維鏈(CoT)提示已成為激發大語言模型(LLM)推理能力的核心方法,但其生成的推理步驟中存在難以檢測的「幻覺」。

現有的消除大語言模型幻覺的方法如過程獎勵模型(Process Reward Model)或自一致性校驗如同黑箱操作,難以提供可驗證的證據,制約了糾正幻覺的能力。

論文提出一種創新的Safe驗證框架。區別于傳統模糊評分機制,Safe創新性地證明驗證定理的正確性,從根本上識別并消除幻覺。實驗表明,本論文提出的Safe驗證框架在多個數學模型和數據集上實現顯著性能提升,實現神經符號系統在數學推理中的有機融合。

本研究回歸了形式數學語言的初衷——為人類易錯的證明過程提供堅實保障。Safe框架為數學教育、代碼生成等高風險領域提供了可驗證的推理解決方案。

該論文第一作者為數據科學與工程所博士生劉成武(北京大學,導師為張銘教授),合作者包括袁野(北京大學)、尹伊淳(華為諾亞方舟實驗室)、許妍(華為諾亞方舟實驗室)、許鑫(香港科技大學)、陳造宇(香港理工大學)、尚利峰(華為諾亞方舟實驗室)、劉群(華為諾亞方舟實驗室)、張銘(北京大學,通訊作者)。

基于大語言模型的交通流量預測方法

論文名: Embracing Large Language Models in Traffic Flow Forecasting

交通流量預測旨在基于歷史交通狀況和路網結構,預測未來交通流量,這是智能交通系統中的關鍵問題。

現有方法主要聚焦于捕捉和利用時空依賴性來進行流量預測,盡管取得了一定進展,但在面對測試時交通條件變化時表現不足。

針對這一挑戰,本文提出了一種基于大語言模型(LLM)的新方法——LEAF (Large Language Model Enhanced Traffic Flow Predictor)。

與以往工作主要使用LLM的生成能力來直接生成未來交通流量序列不同,LEAF使用LLM的判別能力。

具體來說,LEAF采用雙分支結構,分別通過圖結構和超圖結構捕捉不同的時空關系。兩個分支在預訓練階段獨立訓練,并在測試時生成不同的預測結果。

隨后,利用大語言模型從這些預測中選擇最有可能的結果,并通過排序損失函數作為學習目標來增強兩個分支的預測能力。在多個數據集上的廣泛實驗驗證了LEAF的有效性,證明其在流量預測任務中能夠更好地適應測試環境變化。


該論文第一作者為數據科學與工程所博士生趙禹昇(北京大學,導師為張銘教授),合作者包括羅霄(加州大學洛杉磯分校)、溫浩珉(卡耐基梅隆大學)、肖之屏(華盛頓大學)、琚瑋(四川大學),張銘(北京大學,通訊作者)。

作者介紹

袁境陽


北京大學計算機學院研究生,導師為張銘教授。

主要研究方向是高效大語言模型和稀疏注意力機制,曾獲北京市優秀畢業生、北京大學優秀畢業生等稱號。

羅鈞宇


北京大學計算機學院博士生,導師為張銘教授。

他的研究方向關注于高效的LLM、LLM后訓練、自適應學習等。

在ICML,CVPR,ACL,TPAMI等頂級刊物上以第一作者發表多篇文章。

趙禹昇


北京大學計算機學院研究生,導師為張銘教授。

研究方向包括圖神經網絡、時空預測、多模態等,關注測試數據的分布偏移問題。

劉成武


北京大學計算機學院數據科學與工程所博士生,導師是DLIB實驗室的張銘教授。

他的研究方向是自然語言處理、大語言模型的數學推理和自動定理證明。

他在北京大學外國語學院獲得了文學學士學位,并修讀獲得了信息科學技術學院的計算機科學與技術雙學位。

張銘


北京大學計算機學院二級教授,博士生導師,北大-安克大模型算法與應用聯合實驗室主任。2021年CCF杰出教育獎獲得者。

張銘教授本碩博都畢業于北京大學計算機系,長期致力于機器學習、圖神經網絡、知識圖譜、文本挖掘、語言模型、推薦系統、教育大數據、科學智能等相關研究。

先后主持國家重點研發計劃課題、國家自然科學基金等前沿項目,發表科研論文 300 多篇,谷歌學術被引用21800余次。合作提出的LINE模型是圖機器學習領域著名的的基準模型,目前單篇被引用 6700 余次。

獲得了機器學習頂級會議ICML 2014唯一的最佳論文獎,以及WWW 2016 最佳論文提名。

在近期利用率僅為20%左右的幾大頂會中,張銘教授的課題組的中概率都在50%以上。

其中,在ICML 2025中了4篇論文。


AAAI 2025也是5篇上榜。


還有ICLR 1篇,KDD 1篇,NAACL 1篇主會 2篇Finding。

參考資料:

https://luo-junyu.github.io

https://pkudlib.github.io/

https://mp.weixin.qq.com/s/nvjSyUBR4DBBQgF1e1OwsQ

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
無聲的抗議!米體:國米賽后拒絕所有采訪,抗議爭議判罰

無聲的抗議!米體:國米賽后拒絕所有采訪,抗議爭議判罰

雷速體育
2025-05-19 07:59:21
廣廈男籃:總決賽G6組織第二現場觀賽,限制800人內報名

廣廈男籃:總決賽G6組織第二現場觀賽,限制800人內報名

雷速體育
2025-05-19 15:49:20
搞不懂!拿著8000萬合同,季后賽場均9分,為什么大家都在夸獎他

搞不懂!拿著8000萬合同,季后賽場均9分,為什么大家都在夸獎他

球毛鬼胎
2025-05-19 20:37:39
為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

近史談
2025-05-19 17:01:40
“我能和你發生性關系嗎?”

“我能和你發生性關系嗎?”

法律讀品
2025-04-17 16:00:31
2-0,48歲范尼發威:率英超前冠軍3輪不敗,38歲瓦爾迪驚艷破門

2-0,48歲范尼發威:率英超前冠軍3輪不敗,38歲瓦爾迪驚艷破門

凌空倒鉤
2025-05-18 23:53:08
淚流滿面的發帖!爺爺每多活一天,就能為家里帶來566元的收入…

淚流滿面的發帖!爺爺每多活一天,就能為家里帶來566元的收入…

火山詩話
2025-05-09 14:23:17
黃楊的爹曾是四川慈善總會主任,負責汶川,玉樹地震災后重建工作

黃楊的爹曾是四川慈善總會主任,負責汶川,玉樹地震災后重建工作

漢史趣聞
2025-05-18 08:17:24
孟加拉留學生炫耀如何釣美女,揚言中國女孩:只要是外國人就愿意

孟加拉留學生炫耀如何釣美女,揚言中國女孩:只要是外國人就愿意

曉風說
2025-05-18 12:31:43
廣廈危險?CBA歷屆冠軍隊在各自隊史首冠時都在冠軍點直接取勝

廣廈危險?CBA歷屆冠軍隊在各自隊史首冠時都在冠軍點直接取勝

雷速體育
2025-05-19 21:55:26
我真失敗!38歲支教女教師,沒有結婚,生日當天,邊吃包子邊落淚

我真失敗!38歲支教女教師,沒有結婚,生日當天,邊吃包子邊落淚

蝴蝶花雨話教育
2025-05-17 04:25:02
華人“鋼鐵大王”在菲遭撕票案主謀落網,部分贖金已提走 其子仍被列為調查對象

華人“鋼鐵大王”在菲遭撕票案主謀落網,部分贖金已提走 其子仍被列為調查對象

紅星新聞
2025-05-19 16:10:17
官宣!分道揚鑣!湖人送東契奇的第一份大禮,誰都不能阻止你前進

官宣!分道揚鑣!湖人送東契奇的第一份大禮,誰都不能阻止你前進

張家大院趣說天下事
2025-05-19 08:20:03
越來越多的人查出腸癌!醫生含淚苦勸:冰箱久置的4物,別再吃了

越來越多的人查出腸癌!醫生含淚苦勸:冰箱久置的4物,別再吃了

河山銳新聞
2025-04-16 14:03:09
茅臺股東大會開幕!多款茅臺原價暢買,不少股東整箱購入!招待晚宴飛天茅臺變藍莓果汁,董事長張德芹:發自內心贊成公務接待不供酒新規

茅臺股東大會開幕!多款茅臺原價暢買,不少股東整箱購入!招待晚宴飛天茅臺變藍莓果汁,董事長張德芹:發自內心贊成公務接待不供酒新規

每日經濟新聞
2025-05-19 18:36:05
巴媒:安帥確定巴西隊50人初選名單,內馬爾、奧斯卡、胖虎入選

巴媒:安帥確定巴西隊50人初選名單,內馬爾、奧斯卡、胖虎入選

雷速體育
2025-05-19 20:57:44
卸妝后的李小冉,這才是真實的她

卸妝后的李小冉,這才是真實的她

阿廢冷眼觀察所
2025-05-18 01:37:30
周潤發慶祝70歲大壽,在酒店辦壽宴,陳薈蓮抱著愛狗,看起來好瘦

周潤發慶祝70歲大壽,在酒店辦壽宴,陳薈蓮抱著愛狗,看起來好瘦

墨印齋
2025-05-19 18:40:28
8000余萬元黃金投入研發后“不知去向”,咋回事?

8000余萬元黃金投入研發后“不知去向”,咋回事?

大象新聞
2025-05-19 16:29:08
中紀委:公職人員“八小時工作時間之外”,也要管起來!

中紀委:公職人員“八小時工作時間之外”,也要管起來!

小江網評
2025-05-18 23:23:27
2025-05-19 22:39:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12729文章數 66036關注度
往期回顧 全部

科技要聞

余承東最燃宣言:華為要給世界多一種選擇

頭條要聞

印媒記者詢問中方是否愿意向巴方提供武器 外交部回應

頭條要聞

印媒記者詢問中方是否愿意向巴方提供武器 外交部回應

體育要聞

1場3次爭議判罰!梅西炮轟美職聯裁判

娛樂要聞

S媽首次回應被指控偷大s珠寶一事

財經要聞

廣州、廈門等地銀行逆勢上調首套房利率

汽車要聞

雷軍官宣:小米首款SUV YU7 5月22日發布

態度原創

本地
數碼
家居
手機
公開課

本地新聞

“5·19中國旅游日”2025年主會場活動啟動儀式

數碼要聞

Bose「魔卡少女櫻」限量聯名禮盒圖賞:可愛到爆,誠意拉滿!

家居要聞

暗色工業 簡約的設計美學

手機要聞

Siri難了?歐盟重拳出擊:蘋果或需向第三方語音助手開放

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蓝山县| 江北区| 射阳县| 盘山县| 仁布县| 永靖县| 三穗县| 邵阳县| 自治县| 新和县| 清河县| 霍州市| 临沧市| 都兰县| 和硕县| 子洲县| 定日县| 南宁市| 武穴市| 昂仁县| 信阳市| 海阳市| 晋江市| 宜丰县| 深泽县| 天祝| 南陵县| 乌兰察布市| 北京市| 都安| 延边| 迭部县| 新干县| 丹阳市| 昆明市| 通山县| 南投市| 白玉县| 固镇县| 北流市| 洮南市|