99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

被 AI 大廠逼至絕望,這幫歐洲人發起了一場“科學復興運動”

0
分享至

作者 & 采訪 | 王啟隆 Eric Wang

出品丨GOSIM 開源創新匯

2021 年 1 月,當 OpenAI 的 DALL-E 模型用一串文本便能生成“精彩絕倫的圖像”時,整個科技界為之震動。

然而,在這片贊嘆聲中,一種更復雜的情緒正在一群科學家、工程師和愛好者心中悄然發酵——那是一種混雜著敬畏與深刻挫敗感的“絕望”。

這種絕望,源于一個日益尖銳的矛盾:人工智能領域最前沿、最具革命性的成果,正被越來越多地鎖在少數科技巨頭的“黑箱”之中。模型不開源,數據集不公開,研究過程無法復現。對于視“可復現性”為基石的科學界而言,這無異于前路被巨石阻斷。你如何去研究一個你甚至無法獨立驗證的現象?

火花,在德國一間普通的高中課堂之外被點燃。Christoph Schuhmann,一位物理與計算機科學教師,在讀完 DALL-E 的論文后,內心深受震撼。一個強烈的念頭在他心中萌發:我們必須能夠復現這樣的模型!他立刻意識到,首要的、也是最大的障礙,是那個外界無從知曉的海量訓練數據集。

在 Elute AI 服務器,一個 AI 愛好者的在線社群里,Schuhmann 提出了一個看似簡單卻極具開創性的想法:我們或許可以從 Common Crawl(一個巨大的公開網頁存檔)中,抓取那些附帶了描述性文本的圖片鏈接,以此來構建我們自己的數據集。起初,響應者寥寥,一些人因各種原因很快分心。但他沒有放棄。

不久,一位名叫 Theo Coombes 的程序員成為第一個響應者,兩人共同發起了“在家爬蟲”( Crawling at Home )計劃。這標志著 LAION 從一個人的執著,轉變為一項協作的努力。2021 年 3 月,一個獨立的 Discord 服務器應運而生,并迅速成為這個新生組織的“神經中樞”。

這個服務器像一塊投入水中的磁石,迅速吸引了來自世界各地的“鐵屑”——一個由科學家、開發者、工程師和普通愛好者組成的,堪稱“夢之隊”的多元化網絡開始形成:

  • Jenia Jitsev 博士,我們本次對話的主角,尤利希超級計算中心(JSC)的高級研究員,手握著將這場草根運動推向工業級規模的關鍵鑰匙——超級計算機的算力。

  • Richard Vencu,一位擁有近三十年行業經驗的資深工程師,他負責構建和維護 LAION 賴以生存的技術基礎設施。

  • Robert Kaczmarczyk,一位醫生和流行病學研究者,他為項目注入了寶貴的倫理視角和社會責任感。

  • 還有Mehdi ChertiJan Ebert這樣的深度學習專家,以及像Aarush Katta一樣充滿熱情的程序員……

這些背景迥異的個體,因一個共同的信念而匯聚。他們將這個組織命名為LAION(Large-scale Artificial Intelligence Open Network),并立下了核心信條:100% 非營利,100% 免費。其使命被清晰地定義為“解放機器學習研究”,旨在通過提供開放的數據集、工具和模型,來對抗人工智能發展中日益集權化和不透明的趨勢。

當 Christoph Schuhmann 的“在家爬蟲”計劃與 Jenia Jitsev 在尤利希的超級計算機相遇時,一場真正的化學反應發生了。志愿者的熱情與世界頂級的計算資源相結合,讓復現甚至超越“黑箱”中的模型成為了可能。

不久,來自斯坦福大學的 Ludwig Schmidt 教授也加入了進來,帶來了他對 OpenCLIP 的研究成果和頂尖學府的學術嚴謹性,為 LAION 的產出質量提供了關鍵背書。

LAION 的誕生,并非僅僅出于技術上的好奇,而是對當時行業趨勢的一種直接的、有意識的意識形態回應。它代表了一種深思熟慮的選擇,旨在開辟一條截然不同的道路。

GOSIM AI Paris 2025 大會的法國巴黎現場,我們與這場“科學復興運動”的科學架構師 Jenia Jitsev 博士進行了深入對話。他的講述,不僅為我們揭開了 LAION 的起源、挑戰,以及他們如何通過“愛麗絲夢游仙境”等研究,持續為這個高歌猛進的行業進行冷靜的“壓力測試”,更展現了一個由分布式人才組成的開放心靈網絡,是如何改變科學探索的游戲規則的。



LAION 的誕生源于對“黑箱”的絕望

Eric Wang:歡迎您,Jenia。這次來參加 GOSIM 巴黎 AI 大會,感覺現場的氛圍怎么樣?

Jenia Jitsev:感覺非常好,很高興見到了許多老朋友,比如 Hugging Face 和 LightArch 社區的伙伴們。還碰到了 Llama Factory 項目的朋友,我們自己的 OpenThoughts 項目就用他們的工具來做微調,研究推理和追蹤數據 (reasoning traces)。我們還和斯坦福、伯克利的朋友們緊密合作,一起推出了 OpenThinker 模型,有 320 億和 70 億兩種參數規模。

所以你能看到,整個開源社區的合作氛圍特別好,大家都在做對彼此都有益的事情。我希望能找到更好的方法來深化協作。畢竟,能互相幫助、避免重復造輪子肯定是好事,但這背后離不開高效的組織和管理。

Eric Wang:我本來想請您先做個自我介紹,但發現您的履歷上有很多身份。為了讓觀眾更了解您,能解釋一下這些不同的角色和組織,在您的工作中是如何串聯起來的嗎?

Jenia Jitsev:當然。我和 Mehdi Cherti、Mariana Nijurina 都是非營利組織 LAION 的核心研究員,但我們真正的“雇主”或者說資助機構,是亥姆霍茲聯合會(Helmholtz Association),這是德國一個大型的科研組織。

你可以把亥姆霍茲聯合會和馬克斯·普朗克學會(Max Planck organization)看作德國科研的兩大支柱。區別在于,亥姆霍茲更側重于運維那些需要大量資金和人力才能維持的大型、昂貴的科研設備,這其中就包括超級計算機。

我們所在的研究所,就隸屬于亥姆霍茲,它叫于利希超級計算中心(Jülich Supercomputing Centre),在科隆附近。這個中心從上世紀 80 年代起,就有托管和運維超級計算機的悠久傳統。我的研究實驗室就誕生于此,也一直在那里運作。我們的研究經費來自亥姆霍茲聯合會,也就是最終來自德國政府,所以我們是一個公共研究機構。

而另一條線,就是我們的非營利研究組織 LAION。它在 2021 年名義上于漢堡成立,但我說“名義上”,是因為我們在漢堡并沒有實體辦公室。LAION 是一個去中心化的組織,由一群強大的實驗室構成,大家為了共同的目標走到一起。這些目標基本上都圍繞著開放的基礎模型,以及創建這些模型所必需的數據集。

所以,你可以把 LAION 理解成一個“聯合體”,它把各個獨立研究機構里的實驗室連接了起來。比如,我們在于利希的實驗室,斯坦福的路德維希·施密特(Ludwig Schmidt)和他強大的實驗室,還有東京工業大學的橫田良(Ryo Yokota)——他也是 LAION 的資深研究員——和他的學生中村太一(Taishi Nakamura)的實驗室。從這個意義上說,LAION 是一個由強大實驗室組成的網絡,而我們自己的研究所,則為這個網絡提供了一個重要的“托管”和支持。大概就是這樣一種關系。

Eric Wang:我們之前和 LAION 的另一位創始人 Richard Vencu 聊過,聽他講了 LAION 的起源故事。那么從您的視角來看,這個故事又是怎樣的?

Jenia Jitsev:哈哈,這倒有意思了,看看我們的說法能不能對得上。要是對不上,那可就有趣了。

不過說真的,這故事確實有點像電影。我不是自夸,但整個過程充滿了冒險色彩,現在回想起來都覺得回味無窮。LAION 的核心成員們加入的動機各不相同,但驅動我們的,是一種相似的“絕望感”——我們眼睜睜看著那些強大的模型被創造出來,它們明明具備極高的研究價值,但我們卻無法研究,因為它們被鎖在“黑箱”里,外界根本無法復現。

但每個人的具體動機又不太一樣。從我們實驗室的角度來說,故事確實起源于一次內部的文獻研討會。當時我的同事 Mehdi Cherti 正在分享 OpenAI 關于 DALL·E 1 代的論文。

那是 2021 年,當時有兩篇論文影響巨大,我記得都和我們心目中永遠的英雄 Alec Radford 有關:一篇是CLIP 論文,另一篇就是DALL·E。CLIP 在某種程度上更開放一些,至少他們發布了模型權重。但總的來說,整個研究還是無法復現的,數據集沒有公開。至于 DALL·E,那就更徹底了,我們連模型都拿不到。

在那次研討會上,我們都意識到,必須把這類成果作為核心的機器學習問題來研究,因為它就是“可遷移學習”的源頭,而這正是機器學習的圣杯。我們必須搞清楚,它到底為什么能行。

于是我們立刻行動起來,上網搜索有誰在嘗試用開源的方式復現它。說來也巧,就在研討會進行中,我們用谷歌一搜,就發現了一些線索,有人已經建了一個 Discord 服務器,好像就叫“DALL·E 復現服務器”。

我們還找到了 LucidRains,也就是Phil Wang,他有個非常了不起的習慣,就是把所有重要的研究成果都親手復現一遍。我們找到了他那個 DALL·E 復現項目的 GitHub 倉庫,就在上面提了個 issue(可以理解為發起了一個公開討論),大意是說:“嘿,我們想做這件事。我們看到你已經有了些代碼片段,但我們想把它做到一個真正有影響力的規模,復現出更強的模型。我們這邊有超級計算機,能提供足夠的算力。”

這個帖子是公開的,任何人都能看到。我記得是 Mehdi Cherti 在上面寫了第一條評論,問:“我們是一群研究人員,能提供算力,大家可以一起干。”

這條消息立刻在 Discord 上引起了反響。我很慚愧記不清所有人的網名了,但我記得當時的核心人物之一是 Clay Mullis,他后來也參與了 LAION 5B 的論文。他們說:“好啊,我們建個 Discord 服務器,把所有想復現 DALL·E 的人都拉進來,看看誰能來,誰能幫忙。”

就這樣,我們作為研究者,找到了一群志同道合的人。接著,像 Richard 這樣的人,還有在巴黎谷歌工作的 Romain Beaumont 也加入了。Richard 當時好像在經營自己的小公司。還有一位叫 Christoph Schumann 的德國高中老師,他也被這些技術進展深深震撼,希望能讓普通人也能自由地使用這些模型。他更關注數據,覺得沒有數據一切都是空談,于是就想辦法組織志愿者來一起收集數據。

所以你看,世界就是這么奇妙:不同的力量匯聚到了一起。我們這邊強在模型訓練,知道怎么操作超級計算機,怎么做幾百上千個 GPU 的分布式訓練。而另一邊,則是一群以數據為中心的人,開始著手收集數據。

然后,一個非常幸運的轉折點出現了。當時在學界已經很有聲望的研究員,路德維希·施密特(Ludwig Schmidt),注意到了我們的努力。他帶著華盛頓大學和艾倫人工智能研究所的強大團隊加入了進來。恰好,他們當時已經實現了一個版本的 OpenCLIP,正在小規模地做實驗,結果看起來很有趣。當然,所有人都明白,要想研究真正有意思的現象,規模必須做大。

于是,我們的目標就從復現 DALL·E,轉向了 OpenCLIP。因為 OpenCLIP 的代碼庫已經有了,想研究它的人也都在,更重要的是,CLIP 這類模型的評估體系更成熟。如果你訓練出了一個模型,你可以很方便地拿它和 OpenAI 的原始 CLIP 對比,在公開的基準上跑分,看看效果如何。但對于 DALL·E 這樣的生成模型,評估標準(比如 FID)要復雜得多,很難直觀地比較你的成果到底好不好。

我們認為 CLIP 是一條更好的路,因為它是一種表征學習模型,可以用于圖像分類、檢索等各種下游任務,而 DALL·E 只是生成一些漂亮的圖片,沒法作為“模型骨干”被用到其他地方。所以我們最終決定主攻 CLIP。路德維希·施密特加入了,志愿者們在收集數據,我們的超級計算機也準備就緒——所有這些因素匯集到一起,項目就真正起飛了。

這直接促成了 LAION-400M 和 LAION-5B 這兩個大規模、完全開放的圖文數據集的發布。我們還得到了高斯超級計算中心(Gauss Center for Supercomputing)的支持,他們為我們提供了寶貴的計算時間。雖然算力不能說完全充足,但足以讓我們完成這個實驗。從那時起,OpenCLIP 就成了一個被社區大量復用的模型。

回頭來看,研究成果本身固然重要,但我覺得,那個“希望時刻”的意義或許更大。突然之間,所有人都明白了:是的,只要社區里有能力的成員能團結起來,匯集必要的資源,我們完全有可能追趕上像 OpenAI 那樣的頂尖實驗室。

因為我們用這些開放資源訓練出的模型,在很多下游任務的基準測試上,表現和 OpenAI 的成果旗鼓相當,有些甚至更好。這讓我們自己都感到非常驚訝。我們最初的目標,可能只是想復現出“算力越大、模型越好”的趨勢,但我們實際上做到了和他們一樣好,甚至更好,還發布了他們原始研究里沒有提供的擴展定律。

你看,這里有個很有意思的細節:即便是我們幾年前發布的那個 OpenCLIP B32 模型(在 LAION-2B 數據集的 340 億樣本上訓練),到現在每個月仍然有一百多萬的下載量。這說明,如果你用正確的方式做事,成果就能產生持久的影響力,對社區持續有用,而不是曇花一現。


從神經科學到“苦澀的教訓”

Eric Wang:讓我們把時鐘撥回去一些。在“基礎模型”這個詞流行起來之前,是什么最初吸引您進入神經科學領域,特別是視覺皮層中的無監督學習?

Jenia Jitsev:我當時對“學習”這個抽象的過程本身非常著迷。我就在想,外界的信息就像漂浮在空中,一個系統要怎么才能捕捉它們,并把它們“刻印”在自己內部?這個過程到底是怎么運作的?這讓我非常困惑。

大腦無疑是這方面的高手。我之所以對神經科學感興趣,就是因為大腦是一個活生生的、已經成功實現了學習的系統。我當時的研究方向,就是理解大腦神經回路里的學習機制和可塑性是如何相互配合的。

但在某個階段我意識到,如果能把這個問題再往上抽象一層,進入核心的機器學習領域,剝離掉生物學那些錯綜復雜的細節,或許能取得更快的進展。生物系統太復雜了,一部分復雜性可能跟信息處理有關,但另一大部分可能只是為了維持生命體征,和學習關系不大。要把這些東西完全理清楚,需要極長的時間,我感覺憑我一己之力很難搞定。所以,我選擇了一條更簡潔的路,嘗試在更純粹、更抽象的層面上理解學習。

后來,整個領域都發生了變化。我們當時研究的一些相當簡單的方法,比如所謂的“贏者通吃”式電路(Winner-take-all-like circuits),人們發現只要把它們層層疊加、不斷擴大規模,就能產生強大的學習系統。我也很自然地轉向了深度學習,這個方向正是在我博士快畢業、思考未來的時候興起的。

那段時間,我仍然做了一些偏生物學的研究,比如大腦基底節里由多巴胺調節的、基于獎勵的學習機制。但與此同時,我的重心越來越偏向經典的計算機視覺和機器學習,最終來到了于利希超級計算中心。這里有大型計算機,為我提供了絕佳的“土壤”,讓我能用更大規模的數據集,去“喂養”那些結構更簡單但規模遠超以往的網絡。這很自然地,就把我引向了“基礎模型”這個新興領域,我把它們看作是“可遷移學習”的最終產物。

我一直以來的核心興趣點從未改變:要實現真正意義上的“學習”——那種能夠遷移到各種不同場景和任務中的學習——到底需要什么條件?基礎模型,是第一批向我們展示了這條路該如何走的產物。所以,我開始一頭扎進去,試圖弄清楚它們為什么能成功,它們依然存在哪些重大的開放性問題和弱點,以及它們的泛化能力究竟能達到什么程度——因為我們已經看到,它們的泛化能力,遠沒有我們想象中那么強大。

Eric Wang:您在 GOSIM 的演講中提到了一個分水嶺:2012 年之前,整個行業都依賴標記數據,而之后,可擴展和可遷移學習取得了巨大突破。在您看來,促成這種轉變的根本觀念是什么?

Jenia Jitsev:我想,一個最重要的觀念轉變,是人們終于意識到,數據集的構成方式,對學習的成敗起著決定性的作用。以前,大家更關注算法本身,覺得好的算法才是一切的關鍵,“以數據為中心”這個理念在很大程度上被忽略了。

一個明確的變化是,大家開始明白,要構建一個好的數據集,就必須讓它的數據分布盡可能通用,并且在收集時,要盡可能少地加入人為的先驗知識和偏好。于是,“網絡規模”的數據集應運而生。你只需要盡可能多地從網上抓取數據,數據本身的多樣性就足夠了,你根本不需要過多地去預設什么是“好”數據。因為事后證明,人類在判斷什么樣的數據對算法(甚至是對人類自己)學習有益或有害這方面,其實做得很糟糕。

在算法層面,也發生了類似的變化。人們開始理解,算法的“可擴展性”和“通用性”才是王道。這很像強化學習之父理查德·薩頓提出的“苦澀的教訓”(The Bitter Lesson)的精神:如果你能讓一個程序,在“投入的計算資源越多,效果就越好”這個維度上持續擴展,那你就走在正確的路上了。

你不需要為解決某個特定問題去費盡心思地設計精巧的規則,而是應該去思考最通用的學習范式,讓它能處理任何你投喂給它的數據。

大家也明白了“簡單”的重要性——但實現這種簡單,本身卻很難。最終勝出的,并非最簡單的東西,而是那個最具有可擴展性的、簡單的東西。你必須同時追求數據集和算法兩方面的可擴展性。你會發現,即使是像多層感知器(MLP)這樣簡單的結構,它也是可擴展的。但如果你去推導它的擴展定律,就會發現它的擴展效率遠不如 Transformer 架構。

Transformer 本身仍然是一個相對簡單的架構,但它就是比 MLP 更具可擴展性。你必須找到這種精妙的平衡點:既要保持核心機制的簡單,又要讓它具備極強的可擴展性和通用性。正是數據集和算法層面上的這兩個關鍵轉變,才讓我們能夠創造出今天這些在可遷移學習上如此成功的模型。


大公司病

Eric Wang:現在,關于基礎模型的研究似乎只有少數幾家大型的工業實驗室才能復現。這種現狀,是 LAION 成立最主要的催化劑嗎?還是說,你們也希望解決其他一些科學層面的困境?

Jenia Jitsev:即使你暫時拋開“黑箱”研究這個問題,單純地問自己:作為一個機器學習研究者,要在這個領域探索最重要的方向,到底需要什么?你很自然就會得出結論:你需要開放的數據,這樣別人才能在你工作的基礎上繼續構建,或者重復你的實驗;你還需要開源的訓練代碼。

這實際上是回歸了最標準的科學方法。如果我們想研究一個領域里最重要的現象——而“可遷移學習”以及作為其產物的“基礎模型”,無疑是當下最重要的現象之一——那么相關的工具和材料就必須對所有人開放。只有這樣,我們才能更快地取得進展,并且是以一種經過反復驗證的方式,而不是像現在這樣,某個公司發布一個模型,冒出來一些神奇的說法,但誰也無法驗證真偽,只能花上一年半載的時間,靠著各種流言蜚語和坊間傳聞去猜測真相。

所以,對我們這些來自研究領域的人來說,最主要的催化劑,就是創造一個能進行真正科學研究的環境。我想,其他更多來自產業界的朋友,他們更擔心的可能是另一件事:如果只有少數幾家公司壟斷了這些關鍵的“構建模塊”,那行業的其他所有參與者,就只能被動地等待那一兩個巨頭下一次發布點什么,然后眼巴巴地用別人給的東西,甚至連這東西是怎么來的都不知道。

對他們來說,消除這種產業格局中的權力集中,是更緊迫的議題。我認為 LAION 在這方面也確實起到了作用。但對我們研究人員而言,動機非常純粹:我們必須以可復現的方式來研究事物。既然它現在不可復現,那我們就親手讓它變得可復現。

當然,我們也非常感謝那些封閉的實驗室——OpenAI、DeepMind、Meta、Anthropic——因為它們無疑為整個領域指明了重要的方向。做研究就是這樣,你看到一些線索,就應該順著去探索。但到了某個階段,我們必須確保這些研究對于開放的學術界是可復現的,這正是我們投入大量努力的地方。

Eric Wang:LAION、EleutherAI 和 BigScience 都是非常有名的草根研究社區。您有沒有想過,如果當初選擇進入封閉的實驗室,研究大規模模型,您的人生軌跡會有什么不同?另外,在更廣泛的開源生態中,LAION 的獨特之處是什么?我看你們的網站上寫著“100%非營利,100%免費”。

Jenia Jitsev:首先要強調,這個領域存在多樣性是件好事,封閉實驗室也貢獻了巨大的力量。對我個人而言,選擇走開源這條路,是一個非常務實,甚至可以說有點“自私”的決定。我完全不排斥去封閉實驗室工作,拿高薪,有充足的資金。但我的長期感覺是,如果你以一種更開放、更協作的方式做研究,你能更容易地接觸到全世界的頂尖人才,借鑒他們的智慧和技能。

當然,OpenAI、DeepMind 這些公司也匯集了世界上最頂尖的研究者,對吧?但問題在于,一旦你身處一個商業實體中,你就必須對投資者負責,他們會問你:“你的下一個利潤增長點是什么?”

于是,研究方向就不可避免地會向那些更容易向投資者匯報成果的方向傾斜。這對于基礎研究來說,可能是一個大問題。你可能會因為要滿足一些緊迫的商業需求,而被迫忽略掉一些非常有趣、但短期內看不到商業價值的研究方向。OpenAI 的情況可能特殊一些,作為非營利組織,他們或許能擺脫一些這種壓力,也確實有過為了追求重要的研究而長期虧損的階段。但即便如此,當你開始和像微軟這樣有巨大影響力的大公司合作時,你同樣會感受到壓力,讓你無法去探索那些你認為當下最有價值的方向。

所以,我再強調一下,我所說的“自私”是指:我個人認為,有些在研究層面最值得探索的方向,與商業化路徑并不那么兼容。

如果我知道怎么讓它們完美兼容,我完全不介意去封閉實驗室工作。但我看到的現實是,開源的模式,能以一種更高效的方式,來推動那些真正重要的研究方向。也許短期來看,在封閉實驗室里,你可以用更猛烈的炮火集中推進。但我相信,從中長期來看,一個擁有海量頂尖人才的、更廣泛的社區,會在研究效率上獲得更大的動力。這本質上是一個效率問題。當然,也許我是錯的。

Eric Wang:您演講中用了大約10頁的篇幅來談擴展定律,以及如何用 LAION-400M、LAION-2B 和 OpenCLIP 來實現可復現的擴展定律。在實踐中,要做到“可復現”,最大的挑戰是什么?這又如何體現了開放數據和模型的力量?

Jenia Jitsev:一個最明確的挑戰,就是數據集的構建本身。這里面的問題太多了,短時間根本說不完。僅僅是從頭開始整個流程——訪問 Common Crawl,從中提取有用的元數據,再通過層層篩選來保證質量——就已經非常困難了。然后你還得真正去把圖片下載下來,這同樣是一個能把人逼瘋的環節。最開始,你甚至需要鼓起巨大的勇氣,去投入大量精力收集一些東西,而這些東西最終很有可能因為各種原因,變成一個失敗的數據集。

我想我們算是運氣很好。我們最初其實預期,用我們收集的數據訓練出來的模型會非常平庸,和頂尖水平差距很大。但結果比預想的好,那真是一個幸運的時刻。當然,麻煩也隨之而來。因為我們的數據是開放的,所以很快就有人在里面發現了一些不該存在的非法樣本。

這恰恰凸顯了開放的一大優勢:透明。 一旦問題被發現,你就可以說:“好的,我們來修復它。”我們后來和互聯網觀察基金會(IWF)以及加拿大的一個組織合作,他們提供了大量不良數據的哈希列表。這對我來說是個很大的觸動:原來公共互聯網上還有這么多不良內容沒有被服務商移除,這很奇怪,因為他們按理說是被要求這么做的。利用這些哈希值,我們才得以發布了 LAION 數據集的修復版本。

總而言之,要讓擴展定律可復現,光是在數據集上,就要投入巨大的工作量。我認為這需要更多人團結起來,因為讓單個組織獨自承擔所有這些工作,是不健康的。

當然還有其他挑戰。你需要非常熟悉超級計算機的操作,需要懂得如何設計科學的實驗,來獲得足夠好的測量數據,從而繪制圖表、擬合有意義的曲線,并準確預測模型在更大規模下的表現。這純粹是科學專業知識,我們也必須從頭學起。還有計算時間本身,以及申請這些資源所要付出的努力。你需要定期寫項目申請去爭取算力,這也是一個相當繁瑣的過程。所以說,可復現性的成本是相當高的。

我認為很重要的一點是,開源社區內部應該加強交流,探討如何讓這些流程變得更容易。比如,大家可以聯合申請經費,有經驗的人可以分享計算時間,互相幫一把。這樣,這些繁瑣的流程才不至于把我們這樣小規模的非營利組織給“壓垮”。要實現可復現性,你必須同時應對技術、組織和科學這三個層面的挑戰。我希望我們正在這三方面不斷學習和進步,讓所有參與者在做這類研究時,過程能不那么痛苦。


“愛麗絲夢游仙境”:當頂尖模型跌入邏輯的兔子洞

Eric Wang:“愛麗絲夢游仙境”(AIW)研究,是您演講中非常吸引人的一部分。您是合著者之一,而這篇論文的主要作者 Mariana 和另一位合著者 Mehdi 今天也來到了 GOSIM 大會現場。

在深入探討這篇精彩的論文之前,我個人很好奇一件事——是誰給它起了這么一個富有想象力的名字?

Jenia Jitsev:哦,是的,其實是我起的。當時看到實驗結果時我非常驚訝,在我看來,這些頂尖模型在處理如此簡單的問題時所表現出的行為,真的像創造了一個光怪陸離、非常詭異的環境。“愛麗絲”這個名字,其實有點偶然,因為在計算機科學里,我們討論通信問題時,經常用“愛麗絲”和“鮑勃”作為代號。

但一旦用了“愛麗絲”,就很容易讓人產生聯想。因為我們觀察到,這些聲稱自己擁有強大泛化能力的模型,在一些極其簡單的任務上,表現得如此奇怪,這讓我覺得非常怪誕。

我當時腦海里甚至浮現出原著書中的一幅插畫,我想應該是《愛麗-絲鏡中奇遇記》里的場景,就是那個叫 Humpty Dumpty(矮胖墩)的蛋形人。他坐在墻上,態度非常權威、自視甚高,小女孩愛麗絲向他伸出手,結果他搖搖晃晃地,最后就摔得粉碎。這個畫面在我腦海里成了一個絕佳的隱喻。

雖然我平時不太喜歡我們領域里那些故弄玄虛的標題,但這次我實在忍不住,所以就用了這個名字。

Eric Wang:為了讓不熟悉的觀眾能快速了解,AIW 研究的核心發現是:即便是最頂尖的大語言模型,在面對一些核心邏輯完全不變、只是調整了幾個數字的簡單問題時,表現會極不穩定。當您的團隊意識到這些模型存在如此根本性的困難時,那個“頓悟時刻”是怎樣的?

Jenia Jitsev:說實話,我們最開始也沒有意識到,僅僅是改變問題模板里的變量,就能產生這么大的影響。當時社區里已經流傳過一些據說能“攻破”模型的問題,比如 2023 年網上流傳的那個關于“薩莉和她的兄弟們”的邏輯題。

我們的問題和那個有些關聯,但又不太一樣。我們一開始測試的,只是一個固定的、靜態的問題。但我們發現,即使在這種最簡單的情況下,像 GPT-4 這樣強大的前沿模型,有時候給出的正確率也低得奇怪。我想,就是在我們不斷探索,想找到底是哪種問法能讓模型“翻車”的時候,我們偶然發現了這一點,然后意識到:你其實根本不需要對問題做太多改變,你只需要改變幾個數字,它就崩潰了。 那一刻,確實就是我們的“頓悟時刻”。

我們發現,導致模型崩潰的,并不是問題中某個特定的、刁鉆的特征,而是某種更普遍的東西。這說明,模型的泛化能力確實出了大問題。對于一個固定的、簡單的邏輯模板,你填進去一組數字,它能解決;然后你換一組稍微不同的數字,它就徹底失敗了。為什么它的表現會受到如此劇烈的影響,我們至今仍在努力理解。

從那以后,我們的研究路徑就非常清晰了。我們生成了大量的變體,嘗試了不同的問題模板,不斷地替換里面的變量,結果總是看到同樣一致的現象。直到后來新一代的推理模型(比如 O1、O3)出現,我們才第一次看到有模型能在處理這類問題時,表現出一定的穩定性。但如果你把問題的結構再改得稍微復雜一點——遠沒有到它們聲稱能解決的奧林匹克競賽或研究生級別任務的難度——它們同樣會很快崩潰。

在推理模型出現之前,你可以用任何市面上最強的模型,比如 Anthropic 的 Claude、GPT系列、Mistral、Cohere 的 DBRX、Command R+,它們無一例外,都會在這種簡單問題上徹底“翻車”。

而這背后真正的問題在于,幾乎所有這些公司,都在它們的官網上寫著:“我們的模型旨在幫助您解決嚴肅的、現實世界中的商業問題。”如果你看到,一個如此簡單的、符合常理的邏輯變體就能讓模型嚴重崩潰,你就應該明白,這不僅僅是“愛麗絲”這一個問題的結構有缺陷。你可以想象任何你想用AI解決的問題,你用某個模型測試了一下,發現效果很好,于是你開始信任它。然后,你可能只是對輸入做了一點微小的、你認為完全合乎邏輯的修改,結果它就在你毫無察覺的情況下,給出了一個完全錯誤的答案。

這種情況尤其危險,特別是當你自己也不知道正確答案,純粹指望模型幫你解決問題的時候。對于“愛麗絲”問題,我們很容易發現模型錯了,因為我們自己知道答案。但對于一個你不知道答案的復雜問題,模型不僅會給出一個錯誤的回應,還會用一種我們稱之為“虛構”(Confabulations)的方式,非常自信地為它的錯誤答案辯護,告訴你:“是的,我仔細檢查了我的解決方案,一切都很好。”

特別是像 DBRX 和 Cohere 的模型,它們的回應方式,總能給用戶一種“一切盡在掌握”的信心,但實際上可能錯得離譜。這樣一來,用戶根本就意識不到自己被誤導了。

對于傳統的大語言模型來說,這絕對是一個巨大的麻煩。對于新的推理模型,我們還需要繼續觀察。我們仍然能看到強烈的表現波動,但情況確實比傳統LLM好得多。一個好的跡象是,我們不怎么看到它們給出那種奇怪的、過度自信的錯誤回答了。實際上,當你看到一個推理模型開始“吃力”的時候,它的表現會開始波動,但它同時會告訴你:“哦,等等。哦不,我不確定。嗯……這個很難。”

這說明它具備了更好的反思能力,或者說,它對自己“不知道”這件事的校準能力更強了。這讓我們對“推理模型”這條路,抱有了一絲希望。


從“虛構”到反思:推理模型是出路,還是又一個開始?

Eric Wang:AIW 論文首次發表時,推理模型還沒像現在這樣流行。所以你們的研究實際上橫跨了兩個階段:一次是在推理模型出現前,測試了像 GPT-4、Llama 3 這樣的基礎模型;另一次是在推理模型出現后,你們又用同樣的問題去測試它們,結果發現它們雖然有所改進,但仍然表現不佳。

這真的非常令人費解。這些難以根除的缺陷,對于我們未來該走哪條路,有什么啟示?

Jenia Jitsev:這是一個非常好的問題。對此,一個最直接、最簡單的解釋可能就是:我們用來訓練推理能力的數據,可能還不夠多。

我們現在也在用自己的 OpenThoughts 數據集做這方面的實驗,這個數據集最初只有十一萬多條“推理軌跡”(reasoning traces),現在我們已經把它擴展到了一百萬條。也許,只要我們持續擴大這類數據的規模,就真的能解決這個問題。可能到了某個臨界點,模型就會突然涌現出穩健的泛化能力,至少對于特定復雜度的問題是這樣。

舉個例子,像 DeepSeek-V2-Coder 這個模型,它是在一個基礎模型之上,額外用了幾十萬條推理樣本進行微調的。這個量,也許還不足以讓模型完全、穩健地建立起核心的推理能力。

但你確實看到了明顯的改進,情況在變好。所以,最符合直覺的做法,就是像以前所有被證明有效的學習過程一樣,直接擴大規模。你看,之前斯坦福有一個叫 LIMA 的研究,他們只用了大概 800 到 1000 條高質量的推理軌跡,在一個傳統的大語言模型(Qwen-32B)上進行微調,性能就出現了巨大的飛躍。

這就讓你很自然地會去想:既然少量高質量數據就能帶來巨大提升,那如果我把這個數據量擴大到兩百萬、五百萬條,會不會在某個時刻發生質變,從而徹底解決這個問題?

當然,這里面也要小心。幸運的是,現在有了像 OpenThoughts 這樣的開放數據集,還有 Hugging Face 社區也在做的 Open-Mistral-v0.2 等等努力,這讓驗證上述猜想成為可能。我們處在一個非常有利的位置:我們可以清晰地看到后訓練數據(post-training data)是什么樣的。比如,我們知道 Qwen-32B 這個基礎模型解決不了“愛麗絲”問題,它在這上面表現很差,而且我們可以很確定,它的預訓練數據里,沒有泄露過類似的問題。然后,你拿到了完全開放的、用于后訓練的推理數據,把它應用上去。你同樣可以檢查這批數據里有沒有“愛-絲”問題——沒有,不存在數據泄露。那么,模型所有的性能提升,就都歸功于接觸了這些通用的推理軌跡。

所以,我認為,在我們去探索更復雜的解決方案之前,首先必須把這條最直接的路驗證清楚。當然,你可以想到很多種修復這個問題的方法。但是,擴大推理數據的規模——這件事現在是完全可行的,因為現在的推理模型已經足夠好,可以用來生成海量的、合成的推理軌跡數據,你甚至不太需要費力地去挖掘真實數據了。

讓我們先嘗試把這件事做到極致,看看單靠擴大數據規模,是否足以讓那些奇怪的性能波動消失。如果可以,那我們就再次證明了,這歸根結底還是一個數據問題。那就太酷了。

展望:開放社區的未來與挑戰

Eric Wang:隨著 GOSIM 巴黎 AI 大會的進行,您對這次大會以及在這里建立的聯系有什么特別的期望嗎?另外,您希望明年的 GOSIM 歐洲大會在哪里舉辦?

Jenia Jitsev:這幾個問題都很好,讓我想想。在這次大會上,我見到了來自 Eclipse 基金會和 Linux 基金會的朋友,我們和 Linux 基金會一直有很好的聯系。

我希望,未來我們能建立一個更有組織性的框架,來更好地發掘開源社區里這些輪流涌現的優秀人才的潛力。我希望能和這些大型開源基金會更緊密地合作,互相幫助。這次 GOSIM 大會提供了一個非常好的機會,讓我們能和他們面對面地交流。

至于 GOSIM 歐洲站的舉辦地……我必須說,巴黎其實是最好的選擇。

Eric Wang:德國呢?你的故鄉。

Jenia Jitsev:德國處境艱難。我們必須公平地看待這一點。德國在機器學習的研究和產業方面都存在斷層。我們必須修復它。法國做得好得多。但 LAION 在那里。黑森林實驗室(Black Forest Labs)是德國的一大希望,他們有非常強大、非常有能力的人。但我們需要在德國把政策搞對,這樣這些有能力的人才能有好的發展條件。

如果 GOSIM 要來德國,我當然有偏向。科隆會是一個不錯的大城市,一個充滿歡樂的城市,一方面為人們提供了很多四處走走的機會。另一方面,我們的超級計算中心就在附近。德國其他地方的人也很容易來到科隆,因為它是一個交通非常便利的樞紐。

另一個顯而易見的選擇是柏林。但老實說,柏林的機器學習圈子有點在衰落。我不知道為什么,這對我來說也是個謎。但我猜想,像科隆這樣的聚會中心會是個不錯的選擇。我想很多人都能去那里,因為它很容易到達,也是一個值得參觀的有趣地方。

Eric Wang:好的。非常感謝您,Jenia,感謝您帶來的深刻見解和啟發。希望我們的觀眾覺得有所收獲。對于想更多了解您的工作或與您聯系的觀眾,通過哪些渠道找到您最好?

Jenia Jitsev:我們當然比較多地使用 Discord。很多開源社區都在 Discord 上活動。不管是什么原因,這都有點偶然。可以來 LAION 的 Discord 服務器,我的 Discord ID 和我的名字一樣。你可以隨時在那里@我。也可以交換電子郵件;我 Forschungszentrum Jülich(于利希研究中心)的官方工作郵箱也是一個聯系我的好地址。LinkedIn 我其實用得不多,很多 LinkedIn 上的消息我可能一個月后才看到——或者是來參加像 NeurIPS、ICLR、ICML、CVPR 這樣的頂級會議。我們都會去那里,在那里交流。這也是一個好機會。

Eric Wang:謝謝您,Jenia。請繼續關注 GOSIM 的官方 X 和 YouTube 頻道,以及 OpenAGI 論壇,獲取更多精彩內容和更新。謝謝您,Jenia。非常感謝。

Jenia Jitsev:謝謝。

歡迎大家持續關注 GOSIM 在 X、YouTube、Bilibili 等平臺的官方賬號,獲取前沿的 AI 研究動態與精彩對話。

AI 產品爆發,但你的痛點解決了嗎?

2025 全球產品經理大會

8 月 15–16 日

北京·威斯汀酒店

互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人

12 大專題分享,洞察趨勢、拆解路徑、對話未來。

立即掃碼領取大會PPT

搶占 AI 產品下一波紅利

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
甜瓜:比斯利是史上最有天賦的球員之一 他并未被真正尊重過

甜瓜:比斯利是史上最有天賦的球員之一 他并未被真正尊重過

直播吧
2025-07-23 17:57:59
杭州余杭受影響用戶7月份水費全免

杭州余杭受影響用戶7月份水費全免

界面新聞
2025-07-23 17:49:15
深圳最新人事任免發布

深圳最新人事任免發布

南方都市報
2025-07-23 20:53:42
周恩來祭拜孫中山,得知守靈人20年未發餉,總理問:他給你多少錢

周恩來祭拜孫中山,得知守靈人20年未發餉,總理問:他給你多少錢

與史說
2025-07-23 12:12:43
老人扎堆乘涼,肯德基損失過萬,警方沒有辦法,老人一語說出關鍵

老人扎堆乘涼,肯德基損失過萬,警方沒有辦法,老人一語說出關鍵

鋭娛之樂
2025-07-22 23:31:40
上海郊區小鎮,全面崩盤

上海郊區小鎮,全面崩盤

魔都財觀
2025-07-23 07:41:49
廣東2個孩子被燒死在爺爺家中!繼奶容貌曝光!身體火辣,僅34歲

廣東2個孩子被燒死在爺爺家中!繼奶容貌曝光!身體火辣,僅34歲

魔都姐姐雜談
2025-07-23 14:08:40
惡魔基因天生壞種?母親執意生下“超雄”兒子,長大后驚嚇全部人

惡魔基因天生壞種?母親執意生下“超雄”兒子,長大后驚嚇全部人

冰雅憶史
2025-07-21 11:38:31
8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

趣談人物紀
2025-07-23 12:00:03
石破茂辭職,日本變天!日本極右翼得勢,中國嚴陣以待

石破茂辭職,日本變天!日本極右翼得勢,中國嚴陣以待

哲叔視野
2025-07-23 18:12:27
19歲小伙錯付1010元打車費索要無果后自殺,家屬起訴司機案開庭,上海交通委已介入

19歲小伙錯付1010元打車費索要無果后自殺,家屬起訴司機案開庭,上海交通委已介入

極目新聞
2025-07-23 16:43:52
讓中國人滾出韓國!中方再也不忍了,一紙嚴正函件送到李在明手上

讓中國人滾出韓國!中方再也不忍了,一紙嚴正函件送到李在明手上

軍哥風云說
2025-07-23 12:14:03
53歲性感女神驚爆真空上陣露古怪胸型!豐滿上圍下垂到肚臍

53歲性感女神驚爆真空上陣露古怪胸型!豐滿上圍下垂到肚臍

粵睇先生
2025-07-23 00:55:58
咸魚一條狗賣26000:特會配,一次四十分鐘,男生勿擾

咸魚一條狗賣26000:特會配,一次四十分鐘,男生勿擾

丫頭舫
2025-07-23 10:27:36
謝尚果被撤職

謝尚果被撤職

極目新聞
2025-07-23 19:32:34
曝深圳14歲女學生被同班男生殺害,連捅26刀手段殘忍,母親曝原因

曝深圳14歲女學生被同班男生殺害,連捅26刀手段殘忍,母親曝原因

180視角
2025-07-23 16:49:24
市監部門回應“上海和平飯店罐裝可樂一杯賣50元”:屬市場調節價,只要消費者愿意買單

市監部門回應“上海和平飯店罐裝可樂一杯賣50元”:屬市場調節價,只要消費者愿意買單

極目新聞
2025-07-23 18:30:14
A股跳水原因找到了!1.2萬億股民買單了?今晚關注特朗普重磅行動

A股跳水原因找到了!1.2萬億股民買單了?今晚關注特朗普重磅行動

看財經show
2025-07-23 16:56:53
和平湖市委書記聊了一個半小時,他提了106次上海

和平湖市委書記聊了一個半小時,他提了106次上海

上觀新聞
2025-07-23 19:43:51
英偉達大跌!黃仁勛持續減持,近一個月套現約2億美元

英偉達大跌!黃仁勛持續減持,近一個月套現約2億美元

每日經濟新聞
2025-07-22 22:42:08
2025-07-24 00:24:49
CSDN incentive-icons
CSDN
成就一億技術人
25804文章數 242100關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

教育
時尚
游戲
旅游
軍事航空

教育要聞

黑龍江考生389分撿漏雙一流鄭州大學

搶戲《醬園弄》、尬演《長安荔枝》,雷佳音的舒適圈正在反噬

LPL第三階段:有驚無險,WBG三局戰勝WE

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

美國核彈頭重回英國牽動全球神經

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 图们市| 洛宁县| 新昌县| 兴业县| 临邑县| 平定县| 遂宁市| 巴里| 龙泉市| 江川县| 上林县| 尼木县| 壶关县| 南宁市| 咸丰县| 平塘县| 泽州县| 桦川县| 奉新县| 宝丰县| 廊坊市| 河北区| 巴马| 同心县| 彝良县| 南丹县| 衡阳市| 瑞安市| 忻州市| 山阳县| 乐山市| 无为县| 滁州市| 荃湾区| 措美县| 三台县| 余干县| 白城市| 稷山县| 儋州市| 邵阳县|