機(jī)器之心報道
編輯:大盤雞、杜偉
凌晨三點的 AI 實驗室,鍵盤敲擊聲在空蕩的房間回響。屏幕上,博士生小王、小李、小趙正瘋狂調(diào)整模型參數(shù),只為在 NeurIPS 截稿前將準(zhǔn)確率從 98.2% 刷到 98.5%。
這樣的場景,在如今的 AI 學(xué)術(shù)圈早已見怪不怪。當(dāng)科研淪為數(shù)據(jù)工廠里的流水線作業(yè),當(dāng)研究者們?yōu)榱隧敃撐钠S诒济覀儾唤獑枺涸?jīng)充滿探索樂趣的 AI 研究,何時已經(jīng)變味兒?
大神謝賽寧在 CVPR 2025 的演講,正是對這場學(xué)術(shù)內(nèi)卷發(fā)講出了犀利的觀點:現(xiàn)在的人工智能研究,可能要淪為一場「有限游戲」。
謝賽寧還分享了他從《有限與無限游戲》(James P. Carse著)這本書中獲得了靈感,書中的觀點令人深省。這本書經(jīng)常出現(xiàn)在商業(yè)背景中,但他被其與研究的關(guān)聯(lián)性所震撼,并表示當(dāng)今世界真的需要更多無限的參與者。
不少網(wǎng)友認(rèn)為這是一個非常有趣的觀點,一場精彩的演講,同樣也非常好的回答了「什么是研究」。
AI 研究到底是什么?
在這次內(nèi)容分享的開頭,謝賽寧就向大家介紹了 詹姆斯?卡斯(James P. Carse) 的兩種分類:有限游戲和無限游戲。
這兩種不同的游戲主要有以下區(qū)別:
當(dāng)然,謝賽寧在這次演講中給出了自己的回答:研究理應(yīng)是一場「無限游戲」。此外,他還談了三個主題,分別是:
- 我是我自己的天才
- 為什么人工智能研究正面臨變成有限游戲的風(fēng)險?
- 沒有人能獨自玩一場游戲
AI 研究理應(yīng)是一場「無限游戲」
那么為什么 AI 研究應(yīng)該是「無限游戲」,這源于它的四個特征:
抗脆弱性
凡是能從隨機(jī)事件或沖擊中獲得更多收益而非損失的事物,就是抗脆弱的。抗脆弱性不單單只能夠抵御打擊,還能夠在打擊中成長,變得更強(qiáng)。
無限游戲因挑戰(zhàn)而成長,研究者亦應(yīng)在不確定中愈發(fā)強(qiáng)大。
讓科研突破變得像 「野草生長」。當(dāng)研究者不再困于預(yù)設(shè)框架,而是任由好奇心驅(qū)動探索,那些意外碰撞出的靈感火花,反而能在混沌中開辟出新的道路。就像 DiT、SiT 的誕生,正是在打破常規(guī)的自由探索中,從被拒稿的「失敗」里破土而出,最終成長為行業(yè)基石。
那要怎么找到屬于你自己的研究想法呢?可以根據(jù)這三步走:跟隨你的好奇心和熱情 —— 勇于探索 —— 對意外保持開放心態(tài),從混亂中受益!
這里還有一個要點需要注意:切忌第一天就鎖定一個想法,然后寫出一篇從頭到尾都沒變過的論文 —— 這種工作往往是最薄弱的。
開放性
有限游戲的參與者被訓(xùn)練去預(yù)判每一種未來的可能性,他們的目標(biāo)在于掌控未來。與之相對,無限游戲的參與者延續(xù)游戲,是期待著被意外擊中。若不再有意外發(fā)生,所有游戲都將終止。
意外會導(dǎo)致有限游戲落幕,卻正是無限游戲得以延續(xù)的緣由。
無限游戲的參與者時刻準(zhǔn)備迎接未來的意外,它們可能是驚嚇,但也可能是驚喜。這些參與者以全然開放的姿態(tài)投入其中。開放科學(xué)遵循著相同的原則,進(jìn)步并非源于對知識的固守,而是來自分享,這樣一來,探索的游戲才能夠持續(xù)演進(jìn)、生生不息。
學(xué)術(shù)界是唯一能讓你完全自由地以開放姿態(tài)「游戲」的場域。
致學(xué)術(shù)界的同仁:請充分珍視這份獨特的自由 —— 它是一種特權(quán)。
致產(chǎn)業(yè)界的伙伴:學(xué)術(shù)界能成為你強(qiáng)大的盟友,助你降低風(fēng)險、開拓全新方向。
堅持
有限游戲的玩家可能會在目標(biāo)無法達(dá)成時觸發(fā)放棄行動,比如「論文被拒」、「沒拿到資助」、「沒成功上線」。
無限游戲的玩家則視「堅持」為一種生存方式,他們會想「這只是長遠(yuǎn)游戲的一部分。我該如何學(xué)習(xí)、適應(yīng)并繼續(xù)前行?」
謝賽寧用自己的作品進(jìn)行了舉例,他的論文《Scalable Diffusion Models with Transformers》揭開擴(kuò)散模型中架構(gòu)選擇的意義,并為未來的生成模型研究提供經(jīng)驗基線。論文提出了一種基于 Transformer 架構(gòu)的擴(kuò)散模型,稱為 Diffusion Transformers (DiTs),在圖像生成任務(wù)上取得了顯著成果。
但就是這樣一篇神作也非一帆風(fēng)順,這篇論文曾被 CVPR 2023 拒稿。據(jù) Meta 的 AI 科學(xué)家 Yann LeCun 透露,該論文在 CVPR 2023 的審稿過程中被認(rèn)為 「缺乏創(chuàng)新性」而遭拒稿。
不過,這篇論文后來被 ICCV2023 接收,其提出的 DiTs) 模型為擴(kuò)散模型與 Transformer 結(jié)合的研究提供了重要參考,也被認(rèn)為是 OpenAI 的 Sora 模型背后的核心技術(shù)之一。
有時你需要等待 —— 但另一些時候,你得換一種能讓目標(biāo)實現(xiàn)的方法。
SiT 作為首次對基于流匹配的 DiT 模型進(jìn)行規(guī)模化研究的成果,被 2024 年 CVPR 以「缺乏創(chuàng)新性」為由拒稿,卻在經(jīng)小幅修改后被 2024 年 ECCV 接收。
幾個月后,Stable Diffusion 3 融合了擴(kuò)散 Transformer 架構(gòu)與流匹配技術(shù),這一案例印證了學(xué)術(shù)論文不會被工業(yè)界論文 「扼殺」—— 如今 SiT 已成為該領(lǐng)域的常用基準(zhǔn)。
謝賽寧還有更多類似的經(jīng)歷可以分享,他表示許多被引的論文在最初投稿時都沒有獲得最積極的評價。但他仍能堅持,并且擁抱這個過程,而這,就是無限游戲玩家的作為。
教育
如果把博士的成長看作一場有限游戲,那么它結(jié)構(gòu)化的規(guī)則和可量化的目標(biāo),與科研這場無限游戲截然不同。
它以發(fā)表的論文數(shù)量、通過的資格考試以及博士論文答辯為規(guī)則。參與者往往也是固定的,你、同門和導(dǎo)師。獲勝條件則是獲得「博士」稱號,所有的一切也截止在畢業(yè)時刻。
博士階段更側(cè)重完成既定任務(wù)以達(dá)成階段性成就,而持續(xù)的學(xué)術(shù)創(chuàng)新則需要超越這種有限思維。
但博士的教育不該如此。謝賽寧假設(shè)了四條新的「游戲規(guī)則」。
- 終身學(xué)習(xí)的修煉:博士階段教會我們?nèi)绾螌W(xué)習(xí)、提出有價值的問題、顛覆固有認(rèn)知 —— 這些能力遠(yuǎn)超出學(xué)位本身,會伴隨一生。
- 抗脆弱力的塑造:你將學(xué)會在不確定性中從容自處,在復(fù)雜問題里深耕細(xì)作,把失敗與修正當(dāng)作成長的養(yǎng)分。
- 從吸收到創(chuàng)造的蛻變:你會從知識的接收者蛻變?yōu)橹R的創(chuàng)造者,更開始在學(xué)術(shù)之路上引領(lǐng)后來者。
- 沒有終局的旅程:即便戴上博士帽,科研與教育的游戲從未 「通關(guān)」。你會一直留在這場游戲中,為了探索本身而持續(xù)前行。
我是我自己的天才
謝賽寧亮出自己的觀點:你可以并且應(yīng)該自己掌控游戲。
首先問自己一個問題:我們?yōu)槭裁匆l(fā)表論文?這里,知名思想家、作家 Hannah Arendt 曾說過的一段話可以作為參考,「我應(yīng)該追求影響力嗎?不,我想要理解。當(dāng)他人理解并以我所理解的同樣方式時,這會給我一種滿足感和歸屬感。」
因此,謝賽寧提出要「設(shè)計你的游戲玩法。理解、分享并在這場無限的游戲中脫穎而出,不是通過贏得他人,而是做好自己、激勵他人。也就是講好故事、研究品味。」
研究者有時就像時裝設(shè)計師,要對一張表、一條信息精雕細(xì)琢,要提出有簡潔、原則性的方法,還要逐步消融實驗并隔離混淆變量,為自己的項目打造一個專屬主頁。
謝賽寧表示,你也要為自己的論文、自己的工作、甚至是本人,打造鮮明的品牌,別再「隨波逐流」。
在信息爆炸的時代,人們沒有那么多時間來讀論文了,研究者要注重如何實現(xiàn)更高效的知識共享以及自身工作的傳播。
謝賽寧表示,已經(jīng)有很多研究者在使用他的模板,對此表示非常感謝。
模板展示:
為什么人工智能研究正面臨變成有限游戲的風(fēng)險?
謝賽寧接著探討了 AI 研究有可能陷入有限游戲困境的原因,并指出無限玩家必須要反抗。
如今,一些令人擔(dān)憂的研究模式正在肆虐,比如一個主要的有限元研究玩家(如 OpenAI)發(fā)表了一篇新論文(如 4v、r1、grpo、o1、4o),接著便會出現(xiàn)大批的追隨者以及相關(guān)論文,每個人都爭相就同一個主題發(fā)表論文。
這意味著:誰發(fā)表的早,誰就能獲得更多引用量和曝光度,成為贏家;誰發(fā)表的晚,往往會被忽視,成為輸家。不僅如此,一旦出現(xiàn)一篇「奠基之作」,其他人也會快速放棄這個主題。
因此,研究者尤其是學(xué)生和早期研究者面臨著巨大的壓力,為了獲得有限的認(rèn)可而加入到激烈的競爭中已經(jīng)成為必然,這令人精疲力盡且難以持續(xù)。
那么,學(xué)術(shù)激勵機(jī)制是否存在缺陷呢?優(yōu)先考慮發(fā)表的快慢而非研究深度或者創(chuàng)造力,獎勵快速成功而非持續(xù)貢獻(xiàn)。如果學(xué)界玩的是一場有限的游戲,則注定會失敗。
如何破局呢?謝賽寧認(rèn)為要定義新的問題,畢竟問題是層出不窮的。他以自己與 Penghao Wu 合作完成的一個項目 V * 為例進(jìn)行說明,該項目引導(dǎo)視覺搜索作為多模態(tài)大語言模型的核心機(jī)制。
論文地址:https://arxiv.org/pdf/2312.14135.pdf
在當(dāng)時,多模態(tài) LLM 缺乏這種視覺搜索機(jī)制,從而阻礙了它們關(guān)注重要的視覺細(xì)節(jié),尤其在處理高分辨率和視覺繁雜的圖像時。他們提出的這種機(jī)制利用 LLM 中的世界知識進(jìn)行高效的視覺查詢,在與多模態(tài) LLM 結(jié)合時可以增強(qiáng)協(xié)作推理、上下文理解以及對特定視覺元素的精準(zhǔn)定位。
如今,OpenAI 最新版 o3 和 o4 mini 在發(fā)布的時候,在模型基準(zhǔn)測試中加入了 V * 視覺搜索,并在標(biāo)題中直接寫上了利用圖像來思考。
謝賽寧總結(jié)了一下:有限游戲或許能帶來財富、地位、權(quán)力和認(rèn)可;但無限游戲能提供更深層次、更有意義的東西。
不過,我們不能指望初級研究者從一開始就自然地接受這種放眼長遠(yuǎn)的模式,問題在于:如何才能創(chuàng)建一種能夠孕育并維持這種模式的正反饋循環(huán)?
沒有人能獨自玩一場游戲
「要是研究計算機(jī)視覺,你這輩子都找不到工作。」
- —— 某博客文章,2010 年
「你應(yīng)該投身計算機(jī)視覺領(lǐng)域。CVPR 是開放包容的,從不搞學(xué)術(shù)壁壘。」- —— 某位導(dǎo)師,2013 年
從 2010 年的求職冷門到 2013 年的開放前沿,短短三年的轉(zhuǎn)向印證了技術(shù)領(lǐng)域的迭代速度。10 年這句看似預(yù)言失敗的評論,恰反襯出技術(shù)領(lǐng)域十年間的顛覆性變革 —— 如今 CV 已成為 AI 最炙手可熱的分支之一,也印證了科研方向選擇中「長期主義」的價值。
謝賽寧做出總結(jié):玩家從不稀缺,更多玩家并不總意味著無限游戲。
他在演講結(jié)尾呼吁科研進(jìn)步不僅依賴個體突破,更需群體對開放協(xié)作的維護(hù)。
別把我們的學(xué)術(shù)社區(qū)視為理所當(dāng)然 —— 我們每個人都肩負(fù)著讓它變得強(qiáng)大且包容的責(zé)任。
彩蛋懸念:演講幻燈片的結(jié)尾是超可愛 LABUBU。這次幻燈片制作超級精美,記得點開參考鏈接欣賞一下哦。
參考鏈接:
https://www.canva.com/design/DAGp0iRLk9g/8QLkIDov8ez1q6VvO8nnpQ/edit
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.