網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

ICML 2025杰出論文出爐：8篇獲獎，南大研究者榜上有名

2025-07-15 14:29:48　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

包括 6 篇杰出論文獎和 2 篇杰出立場論文獎。

本周一，ICML 2025 公布了最佳論文獎項(xiàng)。

今年獲獎?wù)撐墓灿?jì) 8 篇，其中包括 6 篇杰出論文獎和 2 篇杰出立場論文獎。值得關(guān)注的是，南京大學(xué)研究者也位列獲獎名單之中。

國際機(jī)器學(xué)習(xí)會議 ICML（International Conference on Machine Learning），是全球范圍內(nèi)人工智能領(lǐng)域的頂級學(xué)術(shù)會議之一，由國際機(jī)器學(xué)習(xí)學(xué)會（IMLS）舉辦，與 NeurIPS、ICLR 并列為 AI 三大頂會。本屆 ICML 為第四十二屆，于 7 月 13-19 日在加拿大溫哥華舉行。

今年的 ICML 大會共獲得 12107 篇有效論文投稿，其中 3260 篇被接收，接收比例為 26.9%。相比 2024 年的 9653 篇投稿數(shù)量持續(xù)大幅增長，展示了 AI 領(lǐng)域的火熱。

以下是今年的獲獎?wù)撐呐c簡要介紹。

杰出論文獎

論文 1： Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions

論文地址：https://arxiv.org/pdf/2502.06768
作者：Jaeyeon Kim、Kulin Shah、Vasilis Kontonis、Sham Kakade、Sitan Chen
機(jī)構(gòu)：哈佛大學(xué)、得克薩斯大學(xué)奧斯汀分校

論文摘要：近年來，掩碼擴(kuò)散模型（MDMs，masked diffusion models）逐漸嶄露頭角。與自回歸模型（ARMs）相比，MDMs 在訓(xùn)練時(shí)通過犧牲復(fù)雜性來換取推理時(shí)的靈活性。具體而言，在訓(xùn)練階段，MDM 學(xué)習(xí)解決大量的填充問題，但在推理時(shí)，它們幾乎以任意的順序解碼 Token。

本文深入研究了這兩種競爭效應(yīng)。

在訓(xùn)練層面，本文通過理論分析和實(shí)驗(yàn)驗(yàn)證表明：相較于自回歸模型，MDMs 確實(shí)需要處理計(jì)算復(fù)雜度更高的子問題。在推斷層面，本文發(fā)現(xiàn)采用自適應(yīng) Token 解碼順序的策略能顯著提升 MDMs 的性能，使其有效規(guī)避困難子問題。

在像數(shù)獨(dú)這樣的邏輯謎題中，自適應(yīng)推理可以將預(yù)訓(xùn)練 MDMs 的解題準(zhǔn)確率從不到 7% 提高到約 90%，甚至超越了具有 7 倍參數(shù)量的自回歸模型，這些模型通過教師強(qiáng)制（teacher forcing）顯式訓(xùn)練，學(xué)習(xí)正確的解碼順序。

論文 2：The Value of Prediction in Identifying the Worst-Off

論文地址：https://arxiv.org/pdf/2501.19334
作者：Unai Fischer Abaigar、Christoph Kern、Juan Perdomo
機(jī)構(gòu)：慕尼黑大學(xué)、哈佛大學(xué)

論文摘要：機(jī)器學(xué)習(xí)正越來越多地用于政府項(xiàng)目中，以識別和支持最弱勢群體，優(yōu)先為他們提供援助。

本文研究了在追求公平的背景下，預(yù)測技術(shù)對福利分配的影響，并將其與其他政策工具（如擴(kuò)大行政資源）進(jìn)行比較。

通過數(shù)學(xué)模型和針對德國居民長期失業(yè)問題的真實(shí)案例研究，本文系統(tǒng)性地評估了預(yù)測技術(shù)在識別最弱勢群體方面的有效性。研究成果為政策制定者提供了明確的分析框架和實(shí)用的數(shù)據(jù)驅(qū)動工具，幫助他們在設(shè)計(jì)此類系統(tǒng)時(shí)做出有原則性的決策。

論文 3：CollabLLM: From Passive Responders to Active Collaborators

論文地址：https://arxiv.org/pdf/2502.00640
論文主頁：https://wuyxin.github.io/collabllm/
作者：Shirley Wu、Michel Galley、Baolin Peng、Hao Cheng、Gavin Li、Yao Dou、Weixin Cai、James Zou、Jure Leskovec、Jianfeng Gao
機(jī)構(gòu)：斯坦福大學(xué)、微軟、佐治亞理工學(xué)院

論文摘要：大語言模型通常使用下一輪獎勵(lì)進(jìn)行訓(xùn)練，這限制了它們在長期互動中的優(yōu)化能力。因此，它們常常對模糊或開放性用戶請求作出被動回應(yīng)，未能幫助用戶實(shí)現(xiàn)最終意圖，導(dǎo)致對話效率低下。

為了解決這些局限性，作者提出了 CollabLLM，這是一種新穎且通用的訓(xùn)練框架，旨在增強(qiáng)多輪人類與大語言模型的協(xié)作。

其關(guān)鍵創(chuàng)新在于通過多輪感知獎勵(lì)的協(xié)作模擬，估算響應(yīng)的長期貢獻(xiàn)。通過強(qiáng)化學(xué)習(xí)對這些獎勵(lì)進(jìn)行微調(diào)，CollabLLM 不僅僅回應(yīng)用戶請求，還能主動挖掘用戶意圖，并提供富有洞察力的建議，這是邁向更加以人為本的人工智能的關(guān)鍵一步。

他們還設(shè)計(jì)了一個(gè)多輪互動基準(zhǔn)，涵蓋了如文檔創(chuàng)作等三項(xiàng)具有挑戰(zhàn)性的任務(wù)。與基線模型相比，CollabLLM 在任務(wù)表現(xiàn)上提高了 18.5%，并且在語言模型評審者的互動性上提高了 46.3%。

最后，他們進(jìn)行了一項(xiàng)大型用戶研究，涉及 201 位評審者，其中 CollabLLM 提高了 17.6% 的用戶滿意度，并減少了 10.4% 的用戶花費(fèi)時(shí)間。

論文 4：Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

論文地址：https://arxiv.org/pdf/2504.15266
作者：Vaishnavh Nagarajan, Chen Henry Wu, Charles Ding, Aditi Raghunathan
機(jī)構(gòu)：Google Research、卡內(nèi)基梅隆大學(xué)

論文摘要：作者設(shè)計(jì)了一套最小化的算法任務(wù)，作為開放式現(xiàn)實(shí)任務(wù)的一個(gè)寬泛抽象。這使他們能夠干凈且可控地量化當(dāng)今語言模型的創(chuàng)造性極限。

與需要創(chuàng)造性、遠(yuǎn)見性思維飛躍的現(xiàn)實(shí)任務(wù)類似，他們的任務(wù)需要一個(gè)隱式的、開放式的隨機(jī)規(guī)劃步驟，該步驟要么（a）發(fā)現(xiàn)抽象知識圖中的新聯(lián)系（如文字游戲、類比或研究），要么（b）構(gòu)建新模式（如設(shè)計(jì)數(shù)學(xué)問題或新蛋白質(zhì)）。

在這些任務(wù)中，作者在經(jīng)驗(yàn)和概念上論證了為什么下一個(gè) Token 學(xué)習(xí)是目光短淺的；多 Token 方法，即無教師訓(xùn)練和擴(kuò)散模型，相比之下在生成多樣且原創(chuàng)的輸出方面表現(xiàn)更為出色。

其次，為了在不損害一致性的前提下引發(fā)隨機(jī)性，他們發(fā)現(xiàn)將噪聲注入輸入層（稱為種子條件化）在很多條件下的效果與（并且在某些條件下優(yōu)于）從輸出層進(jìn)行溫度采樣的效果一樣好。

因此，他們的工作為分析開放式創(chuàng)造性技能提供了一個(gè)有原則的、最小化的測試平臺，并提出了超越下一 Token 學(xué)習(xí)和溫度采樣的新論據(jù)。

論文 5：Conformal Prediction as Bayesian Quadrature

論文地址：https://arxiv.org/abs/2502.13228
作者：Jake C. Snell、Thomas L. Griffiths
機(jī)構(gòu)：普林斯頓大學(xué)

論文摘要：基于機(jī)器學(xué)習(xí)的預(yù)測系統(tǒng)在高風(fēng)險(xiǎn)場景中的應(yīng)用日益廣泛，了解此類預(yù)測模型部署后的表現(xiàn)至關(guān)重要。諸如共形預(yù)測之類的分布無關(guān)不確定性量化技術(shù)，即使在模型細(xì)節(jié)隱藏的情況下，也能保證黑盒模型的損失。然而，此類方法基于頻率概率，這過度限制了它們的適用性。本文從貝葉斯視角重新審視共形預(yù)測的核心內(nèi)容，從而闡明頻率概率保證的不足之處。

本文提出了一種基于貝葉斯求積的實(shí)用替代方案，它能夠提供可解釋的保證，并更全面地表示測試時(shí)可能觀察到的損失范圍。

論文 6：Score Matching with Missing Data

論文地址：https://arxiv.org/abs/2506.00557
作者：Josh Givens、Song Liu、Henry W J Reeve
機(jī)構(gòu)：布里斯托大學(xué)、南京大學(xué)

論文摘要：分?jǐn)?shù)匹配是學(xué)習(xí)數(shù)據(jù)分布的重要工具，其應(yīng)用領(lǐng)域涵蓋擴(kuò)散過程、基于能量的建模和圖模型估計(jì)等諸多領(lǐng)域。盡管應(yīng)用廣泛，但很少有研究探討其在數(shù)據(jù)不完整情況下的運(yùn)用。

該研究通過調(diào)整分?jǐn)?shù)匹配（及其主要擴(kuò)展）來解決這個(gè)問題，使其能夠在靈活的設(shè)置下處理缺失數(shù)據(jù)，其中數(shù)據(jù)可能在任何坐標(biāo)子集上出現(xiàn)部分缺失。本文提供了兩種獨(dú)立的分?jǐn)?shù)匹配變體供一般使用：重要性加權(quán) (IW) 方法和變分方法。本文在有限域設(shè)置下為 IW 方法提供了有限樣本邊界，并證明其在小樣本低維情況下尤其表現(xiàn)出色。

此外，本文還證明了變分方法在更復(fù)雜的高維設(shè)置下表現(xiàn)最佳，這一點(diǎn)在真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)的圖模型估計(jì)任務(wù)中均得到了驗(yàn)證。

杰出立場論文獎（Outstanding Position Paper）

ICML 大會在 2024 年首次設(shè)置了 Position Paper 賽道，與傳統(tǒng) research paper 不同，它更注重觀點(diǎn)性、前瞻性和討論性，而非純粹的技術(shù)創(chuàng)新。該賽道鼓勵(lì)作者提出對機(jī)器學(xué)習(xí)領(lǐng)域關(guān)鍵問題的深刻見解、爭議性觀點(diǎn)或未來發(fā)展方向的分析，旨在激發(fā)學(xué)術(shù)界的廣泛討論和反思。

今年有 2 篇論文入選。

論文 1：The AI Conference Peer Review Crisis Demands Author Feedback and Reviewer Rewards

論文地址：https://arxiv.org/abs/2505.04966
作者：Jaeho Kim、Yunseok Lee、Seulki Lee
機(jī)構(gòu)：韓國蔚山科學(xué)技術(shù)院（UNIST）

論文摘要：隨著人工智能領(lǐng)域主要會議投稿數(shù)量的激增（每個(gè)會議投稿超過 10,000 篇），同行評審流程面臨前所未有的挑戰(zhàn)，評審質(zhì)量和評審責(zé)任問題也日益引發(fā)關(guān)注。

本文主張將傳統(tǒng)的單向評審系統(tǒng)轉(zhuǎn)變?yōu)殡p向反饋機(jī)制，在這種機(jī)制中，作者對評審質(zhì)量進(jìn)行評估，審稿人獲得正式的認(rèn)證，創(chuàng)建一個(gè)責(zé)任框架，促進(jìn)一個(gè)可持續(xù)的、高質(zhì)量的同行評審系統(tǒng)。

當(dāng)前的評審系統(tǒng)可以視為作者、審稿人和系統(tǒng)（即會議）三方之間的互動，這三方對當(dāng)前的問題共同負(fù)責(zé)。但是，作者的問題只能通過政策執(zhí)行和檢測工具來解決，而倫理問題只能通過自我反思來糾正。

因此，本文重點(diǎn)探討通過兩種關(guān)鍵機(jī)制改革審稿人問責(zé)制，并引入系統(tǒng)性獎勵(lì)：

（1）雙階段雙向評審系統(tǒng)，允許作者評估評審，同時(shí)最大程度地減少報(bào)復(fù)行為；（2）系統(tǒng)性審稿人獎勵(lì)系統(tǒng)，激勵(lì)高質(zhì)量審稿。

論文 2：AI Safety should prioritize the Future of Work

論文地址：https://arxiv.org/abs/2504.13959
作者：Sanchaita Hazra、Bodhisattwa Prasad Majumder、Tuhin Chakrabarty
機(jī)構(gòu)：猶他大學(xué)、艾倫人工智能研究所等

論文摘要：當(dāng)前人工智能安全領(lǐng)域的工作重點(diǎn)在于過濾有害內(nèi)容、防止操縱人類行為以及消除在網(wǎng)絡(luò)安全或生物安全領(lǐng)域中的存在性風(fēng)險(xiǎn)。盡管這些問題迫切需要解決，但這種狹隘的關(guān)注忽視了塑造社會長期發(fā)展軌跡的關(guān)鍵以人為本的考量。

在本文中，作者指出了忽視人工智能對未來工作影響的風(fēng)險(xiǎn)，并建議提供全面的過渡支持，以促進(jìn)具有人類能動性的有意義的勞動的演變。通過經(jīng)濟(jì)理論的視角，作者強(qiáng)調(diào)人工智能對人類生計(jì)的跨時(shí)間影響以及勞動市場結(jié)構(gòu)變化，這些變化加劇了收入不平等。

此外，人工智能開發(fā)中的主要利益相關(guān)方的封閉源代碼方法，類似于通過資源剝削的尋租行為，培育了創(chuàng)造性勞動中的平庸，并壟斷了創(chuàng)新。為了解決這一問題，他們主張建立健全的國際版權(quán)體系，并實(shí)施集體許可制度，以確保使用數(shù)據(jù)訓(xùn)練人工智能模型的公平補(bǔ)償機(jī)制，強(qiáng)烈建議建立一個(gè)以人為中心的全球人工智能治理框架，以促進(jìn)共享繁榮和經(jīng)濟(jì)公正，同時(shí)減少技術(shù)債務(wù)。

參考鏈接：https://icml.cc/virtual/2025/awards_detail

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.