新智元報道
編輯:Aeneas 好困
【新智元導讀】在CVPR 2025上,謝賽寧發出振聾發聵的批判:如今的AI學術界,已經徹底畸形了!有巨大缺陷的學術激勵制度,讓所有研究者陷入內卷,精疲力竭。而自己的DiT、SiT等開山論文,也讓CVPR評審被狠狠打臉了!
為什么如今的人工智能研究,有可能淪為一場「有限游戲」?
研究人員面臨的壓力,已經令人精疲力竭,當今的學術激勵制度,是否存在著巨大缺陷?
剛剛在CVPR 2025上獲得年輕研究者獎的謝賽寧,提出了這些深刻的問題,引起了全場深思。
作為紐約大學計算機科學助理教授,謝賽寧此次獲獎可謂實至名歸。
而他的演講「研究作為一種無限游戲」,也成為本屆CVPR上的精彩亮點之一。
有趣的是,謝賽寧特意回顧了自己的DiT、SiT兩篇論文,分別被CVPR 2023和2024拒收的經歷。
雖然當時被拒收,但緊接著,CVPR評審就被狠狠打臉:這兩項工作,分別成為了Sora和Stable Diffusion 3的奠基性成果。
謝賽寧參加的這個CVPR社區建設研討會,主題就是支持早期職業研究人員的成長。
活動現場,各位研究者們都發表了一系列精彩演講,進行了坦誠的小組討論。
下面,就讓我們仔細看一下謝賽寧的演講中都說了什么,準備好,思想盛宴開啟!
AI研究,是一場「無限游戲」
在演講開場,謝賽寧介紹了這樣兩種游戲。
其中一種是有限游戲,它有一套明確的規則,目的就是獲勝。有人獲勝,就意味著其他玩家失敗。
而一旦宣布獲勝者,游戲就結束了,所有玩家必須停止游戲。
而另一種,就是無限游戲。它的目標不是獲勝,而是讓所有玩家繼續玩下去。
任何規則、界限,甚至是玩家,都可以隨著時間推移而變化。唯一的必要條件,就是游戲永不終止。
以上概念,是由NYU歷史學教授James Carse在自己的書中提出的。
而在本次演講中,謝賽寧主要談論了以下四部分的內容。
1. 為何研究理應是一場「無限游戲」?
2. 我,即是我自己的天才
3. AI研究正在陷入「有限游戲」困境?
4. 無人能孤身成局
為何研究理應是一場「無限游戲」?
所謂「無限游戲」,可以從反脆弱性、開放性、持久性和教育這4個方面說起。
A. 反脆弱
「反脆弱性」就是指任何在面對隨機事件(或某些沖擊)時,上行空間大于下行風險的事物。
無限游戲就是反脆弱性的,研究也是同樣。
很典型的一個例子,就是一篇論文的影響力,對你職業生涯的影響。
所以,究竟該如何才能找到真正屬于自己的研究思路呢?
第一步:追隨你的好奇心與熱情,讓它們為你指引方向;
第二步:大膽探索,在數學推導和動手實驗中反復嘗試;
第三步:擁抱不期而遇的驚喜,真正的靈感往往源于意外——從混沌中獲益!
注意,一定要避開這個陷阱:從第一天起就抱著一個僵化的想法,然后發表一篇固步自封的論文。而這,往往是最為平庸的作品。
B. 開放
經過訓練,有限玩家可以預測未來的每一種可能性,以控制未來為目標。但無限玩家則繼續游戲,期待著驚喜。
驚喜會導致有限游戲的結束,卻是無限游戲得以延續的理由。
在開放的科學中,進步不是來自對知識的守舊,而是來自對知識的分享。只有發現的游戲才能持續,才能不斷演化。
可以說,學術界是唯一一個你可以完全自由、開放地探索的空間。
對身處學術界的人來說,請充分利用這份獨特的自由——這是一種特權。
而對身處工業界的人來說,學術界可以成為你強有力的盟友,幫你降低風險、開啟新的方向。
C. 堅守
有限游戲的參與者,可能會在目標無法實現時選擇放棄:「論文沒被接收/沒拿到資助/產品沒上線,所以我失敗了?!?/p>
而對無限游戲的參與者來說,堅持是一種存在方式:「這是更長遠游戲的一部分。我該如何學習、適應,繼續前行?」
在這里,謝賽寧就引用了自己DiT論文的典故。
2022年,他和William Peebles一起發表了DiT論文,首次把Transformer和擴散模型結合了起來。
從此,統治擴散模型的U-Net直接被取代。這一論文,成為了奠定他學術地位的開山之作。Diffusion Transformer,也成為了Sora的基礎架構之一。
論文地址:https://arxiv.org/abs/2212.09748
然而,就是這樣一篇神作,當初卻因「缺乏創新性」的理由,直接被CVPR 2023拒了,還一連被多個大公司拒絕。
還有另外一個小插曲:謝賽寧是在deadline截止前三周,才轉向這個項目的。
后來,他們重新提交了這篇論文,未經任何修改,就在ICCV 2023上獲得了Oral。
而合著者William (Bill) Peebles隨后加入了OpenAI,領導了Sora技術團隊,讓DiT的影響力在全世界無限擴大。
所以謝賽寧告訴我們:有時候,你需要等待;另一些時候,你需要換一種方法,來實現目標。
另外,他和Willis Ma等合著的SiT論文,也因「缺乏創新性」這個理由,被CVPR 2024拒了。
論文地址:https://arxiv.org/abs/2401.08740
在稍加修改后,論文被ECCV 2024接收。
就在幾個月后,CVPR評審又被打臉了:Stable Diffusion 3發布,直接表明「結合了DiT架構和流匹配技術」,也就是基于SiT。
而謝賽寧等人的SiT,現在早已成為工業界常用的基準方法。
總之,謝賽寧表示,自己還可以繼續講很多,自己的許多被最多應用的論文,開始并沒有得到最有力的評價。
但是堅持不懈,就是無限玩家會做的事!
D. 教育
如果把博士的「培養」視作一個「有限游戲」,會是下面這樣。
· 規則目標
發表X篇論文、通過資格考試、完成畢業答辯。
· 參與成員
你自己、你的導師委員會,以及同屆的其他博士生。
· 獲勝條件
贏得「博士」頭銜,收獲學術聲望。
· 游戲時限
畢業,即是這場游戲的明確終點。
但博士的「教育」,其實是一場「無限游戲」。
· 終身學習之道
博士教育的真諦在于教會你如何學習,如何提出深刻的問題,如何挑戰既有假設——這些能力將伴你終身,其價值遠超學位本身。
· 煉就自身心智
你將成為一個能安然于模糊混沌,能與盤根錯節的復雜性深度共事,并能在失敗與迭代中安之若素的人。
· 從汲取到反哺
你完成了從知識的汲取者到知識的創造者的蛻變——并開始為后來者引路。
· 游戲永不終局
即便畢業,你也并未「贏得」科研或教育這場游戲。你將永遠身在局中,而你參與的目的,就是為了讓這場游戲永遠進行下去。
我,即是我自己的天才
講到這里,謝賽寧告訴我們:所有人都能夠并理應開創自己的賽局。
首先,需要思考一個問題——我們究竟為什么要發表論文?
Hannah Arendt曾在1964年說:「我該為影響力而奔走嗎?不,我渴望的是理解。而當他人也達成了與我同樣的理解——那一刻,我便獲得了一種滿足感,一種深刻的歸屬感。」
而你,我的朋友,要做的就是定義屬于自己的玩法!
在無限游戲中要脫穎而出,靠的不是戰勝對手,而是成為你自己,并去鼓舞他人!
這也就是我們常說的「講好一個故事」,以及「研究的品味」。
接下來,謝賽寧提出了一個非常有意思的觀點——研究人員就像是時尚設計師。
比如在他看來,何愷明就是最好的設計師之一。
你或許對這些說法不陌生:「一表一核心!」
或者這個:「簡潔且有理有據的方法?!?/p>
「一步一步地進行消融實驗,厘清混淆變量。」
而這些設計,也讓謝賽寧等人獲得了業界的諸多肯定。
正如謝賽寧一直以來都會為自己的項目打造一個專屬的主頁。
你也應該為自己的論文、工作、甚至是本人,打造鮮明的品牌。
不要只做一個學術的「縫補匠」。
(指那些沉迷于對現有模型/工作進行微小改進的研究者)
要知道,在如今這個時代,人們早已沒有時間去讀那么多paper。
因此,怎樣做好知識共享,讓自己的學術成果得到最大化的傳播,就成了一門很重要的學問。
而謝賽寧的模板由于效果十分拔群,在圈子里可謂是相當火爆——有不少研究者都復用在了自己的項目里。
AI研究正在陷入「有限游戲」困境?
接下來這一部分,謝賽寧提出了很多相當令人擔憂的問題。
面對正在陷入「有限游戲」泥沼的AI研究,「無限玩家」必須挺身抗衡。
如今,業界形成的一些研究范式,著實令人擔憂。
比如我們經??吹降南旅孢@個局面——
一個關鍵的「有限玩家」(比如OpenAI)發布了一篇新論文(比如4v, r1, GRPO, o1, 4o...)。
緊接著,一波跟風之作便會隨之而來。之后,所有人都會蜂擁而上,爭相發表同一主題的論文。
由此,大家陷入了一場唯「快」是圖的競賽。
原因在于,一旦論文率先發表,就能收獲更多引用和關注,成為贏家。后來的貢獻者,往往就被直接忽視,成為輸家。
而一旦某項「開山之作」問世,其他人就會迅速放棄這個課題。
由此,研究人員也被逼得身負重壓。
巨大的科研壓力,時常壓得他們喘不過氣來,尤其是學生和青年學者。
所有人都在為爭奪有限的認可而拼命內卷,維持著讓人身心俱疲、難以為繼的節奏。
而現在的學術界,也已經形成了一套頗為畸形的學術激勵機制。
比如重視速度,輕視深度和創造力;獎勵短期的快速勝利,而不是持久的貢獻。
這就十分危險——當學術界也玩起了「有限游戲」,慘敗的結局就已經注定!
而破局之道,就是定義新的問題。畢竟,問題是無窮無盡的。
舉例來說,謝賽寧和Penghao Wu早在2023年7月就啟動了引導視覺搜索作為多模態LLM核心機制的「V*」項目。
當時他們的動機在于,根據人類心理學的相關研究,視覺搜索是一種核心認知機制。
論文地址:https://arxiv.org/abs/2312.14135
在這項研究中,謝賽寧等人將VQA LLM與視覺搜索模型相結合。借助大模型的世界知識,V*會對視覺目標進行多輪引導搜索。接著,它會提取局部特征并將其添加到工作記憶中,最終利用搜索到的數據生成響應。
雖然有些人對此表示不解:「這項能力有什么必要嗎?它明明會拖慢整個系統。」
但隨著新問題的誕生,新的賽局也悄然打響。
時間來到2025年,當OpenAI在發布最新版o3和o4-mini的時候,不僅在模型評測中加入了基于V*的視覺搜索基準,而且還將基于圖像的思考能力作為重中之重,直接放在了標題上。
一句話總結就是:「有限游戲」或許能帶來財富、地位、權力與認可;但「無限游戲」所提供的,是某種更深刻、也更有意義的回報。
當然,我們并不能指望青年學者從一開始就自然具備這種著眼長遠、胸懷利他的格局。
真正的問題在于:我們該如何構建一個正向的反饋閉環,來孕育并守護這種格局?
無人能孤身成局
PPT最后,就到了上價值這趴了。
作為總結,謝賽寧先是通過引述,寫出了自己的一些思考和感悟。
「要是搞計算機視覺,你絕對找不到工作。」——某篇博客,2010年
「你應該投身于計算機視覺。CVPR這個社區開放、包容,從不排外?!埂晃粚?,2013年
正如前文所述,「玩家」從不稀缺,但更多的玩家并不一定意味著「無限游戲」。
因此謝賽寧呼吁,希望大家能夠共同努力讓整個科研環境變得更好。
我們切莫將社區的存在視為理所當然——它的強大與包容,你我皆有責任。
最后,致各位無限游戲中的同道者們:盡情享受這場游戲吧,謝謝大家!
參考資料:
https://x.com/sainingxie/status/1933009474949652546
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.