文|周鑫雨
編輯|蘇建勛
預(yù)訓(xùn)練還是不是王道?如今AI行業(yè),這是最大的“羅生門”事件。
2023年,模型預(yù)訓(xùn)練,還是第一性原理。然而,從OpenAI前首席科學(xué)家Ilya公開喊話“預(yù)訓(xùn)練已走到盡頭”,到聚焦強(qiáng)化學(xué)習(xí)的DeepSeek R1出圈,又昭示著預(yù)訓(xùn)練風(fēng)光不再。
從人人追捧,到口碑滑坡,預(yù)訓(xùn)練境遇的變化,是AI行業(yè)“共識”與“非共識”不斷流動的一個縮影。
針對AI技術(shù)的共識與非共識,2025年5月27日的“技術(shù)開放日”上,螞蟻集團(tuán)攢了一個交流局。
圓桌對話的參與者,是當(dāng)下最熱的創(chuàng)業(yè)者、技術(shù)高管和學(xué)者:
曹越,視頻模型公司Sand.AI創(chuàng)始人,前光年之外聯(lián)創(chuàng)。2024年7月完成兩輪融資后,公司估值已經(jīng)超過1億美元;
林俊旸,阿里通義千問(Qwen)技術(shù)負(fù)責(zé)人。從2021年發(fā)布的M6,到2025年的Qwen3,他都是名副其實(shí)的模型一把手;
孔令鵬,香港大學(xué)助理教授、NLP LAB聯(lián)合主任。其牽頭研發(fā)的擴(kuò)散推理模型Dream 7B,成為了開源擴(kuò)散語言模型的新SOTA。
△圖源:作者拍攝
某種意義上,曹越和孔令鵬,都在探尋AI“非共識”的過程中收獲頗豐——他們都試圖將語言模型和視覺模型訓(xùn)練的主流架構(gòu),分別應(yīng)用到對方身上:
通過把多模態(tài)的主流架構(gòu)Diffusion Model,運(yùn)用在語言模型中,孔令鵬參與研發(fā)的Dream 7B,用僅7B的參數(shù)量,在多個任務(wù)上表現(xiàn)優(yōu)于671B的DeepSeek V3。
反過來,曹越則將語言模型主流的自回歸(Auto Regressive)路線,運(yùn)用到了視頻模型的訓(xùn)練中,實(shí)現(xiàn)了生成視頻長度的無限擴(kuò)展。
他們的經(jīng)歷代表著如今AI行業(yè)最性感的一面:擁抱非共識,實(shí)現(xiàn)創(chuàng)新。
相對的,阿里給外界的印象,則是擁抱共識:長期以來,千問發(fā)布的都是Dense(稠密)模型,曾經(jīng)的主流。直到2025年2月,團(tuán)隊(duì)才推出了首個MoE模型。
作為負(fù)責(zé)人的林俊旸,也常常聽到外界批評的聲音:“千問是不是太保守了?”在圓桌上,他做出了澄清:“我們并不保守,只是做了一大堆實(shí)驗(yàn)后失敗了。真是一個難過的事情。”
這也是AI行業(yè)的另一面:共識,往往代表著占多數(shù)的成功經(jīng)驗(yàn)。
2023年,阿里訓(xùn)練千問大模型時,林俊旸形容,內(nèi)部曾多次“魔改”Transformer架構(gòu)。然而他們最終發(fā)現(xiàn),Transformer還是最優(yōu)解。
當(dāng)然,三人都感受到的一個變化是:去年還在信仰強(qiáng)共識,今年大家都開始尋找非共識。
如今的行業(yè),林俊旸打了個比方,大家都在不同的方向做探索,看誰能摸中彩票。“大家看似在相反的道路上,其實(shí)都不矛盾。”孔令鵬也有類似的觀點(diǎn)。
一個案例是,無論是像孔令鵬那樣,在語言模型的基礎(chǔ)上做Diffusion,還是像曹越那樣,在視頻模型上做自回歸,都是為了平衡Model Bias(模型偏差)和Data Bias(數(shù)據(jù)偏差),達(dá)到更好的效果。
以及,關(guān)于預(yù)訓(xùn)練,近期在美國又涌現(xiàn)了新的非共識:預(yù)訓(xùn)練還沒結(jié)束。當(dāng)下林俊旸也是站在新非共識的一方。他透露:“我們還有好多數(shù)據(jù)沒放進(jìn)(千問),放一次提升一次。”
以下是《智能涌現(xiàn)》對圓桌內(nèi)容的整理,內(nèi)容經(jīng)過編輯:
千問并不保守,只是一大堆實(shí)驗(yàn)都失敗了
螞蟻百靈大模型負(fù)責(zé)人周俊(花名:西亭):用擴(kuò)散模型來做語言生成背后的思考是什么?
孔令鵬:在你不了解你的數(shù)據(jù)時,不要對數(shù)據(jù)做更多的假設(shè),讓模型去接管更多的東西,這是我們將擴(kuò)散模型用于語言模型訓(xùn)練的原因。
有些數(shù)據(jù)是有從左往右的Bias(偏差,指輸出結(jié)果與真實(shí)結(jié)果的差別),比如3+3=6,不可能先有6,再去補(bǔ)前面的過程。另外一些數(shù)據(jù),比如我開三個會,A會在B會后面,B會必須在中午,這就意味著數(shù)據(jù)不可能完全從左到右。
以Gemini Diffusion這樣的文本擴(kuò)散模型為例,它是一個比從左往右學(xué)習(xí)的自回歸模型更少假設(shè)的模型,它可以雙向?qū)W習(xí),也可以處理并行的任務(wù)。
西亭:請結(jié)合實(shí)踐,分享一下多模態(tài)領(lǐng)域主流架構(gòu)面臨的技術(shù)挑戰(zhàn)。
曹越:語言和視頻在某種意義上還是比較像的,它們在時間維度上都有比較強(qiáng)的因果先驗(yàn),也就是時間上的因果關(guān)系。
去年年初發(fā)布的Sora,其實(shí)沒有這種先驗(yàn),生成的5秒視頻,是直接用一個模型來做建模。
我們自己的感受是,視頻時序的因果先驗(yàn)還是很強(qiáng)的,人看視頻的時候是有順序的。為什么有順序?因?yàn)橐曨l信息的存儲方式是有順序的。
我們?nèi)绻軌蛟O(shè)計(jì)出一種訓(xùn)練方式,能夠編碼時間維度上的順序關(guān)系,我可能可以更大程度壓榨視頻中的信息,從而使得模型最終的天花板更高。
西亭:分享一下對Transformer架構(gòu)認(rèn)知的變化,以及你怎么看待Transformer目前面臨的挑戰(zhàn)。
林俊旸:我對Transformer感觸特別深,因?yàn)閯傞_始干這行沒多久,Transformer就來了。所以我個人還是比較感謝Transformer。
一路過來,我們嘗試去改很多東西,但是最終發(fā)現(xiàn)Transformer確實(shí)挺好用的。2022年的時候,大家都會去改一些細(xì)節(jié),比如說對Transformer的激活函數(shù)做一些相應(yīng)的改動。感受是,谷歌還是太強(qiáng)了,PaLM(谷歌基于Transformer訓(xùn)練的模型)還是挺好使的。
尤其2023年,我們剛開始做千問,剛開始也挺掙扎。可能有一些同學(xué)用過我們早期的模型,花樣特別多,搞了半天發(fā)現(xiàn),基礎(chǔ)模型結(jié)構(gòu)還是不能亂動。所以我覺得這還是有一點(diǎn)玄學(xué)的。
大家對千問有一種批評,是說覺得我們相對比較保守。其實(shí)我們并不保守,做了一大堆的試驗(yàn)都失敗了,這是一個難過的事情。
還有一件值得關(guān)注的事,MOE模型。我們2021年就在做MOE,當(dāng)時是M6模型。當(dāng)時發(fā)現(xiàn)MOE挺能Scale的,只是這個模型不強(qiáng)。
MOE還是值得走的,因?yàn)榻裉煺f白了,效果和效率,現(xiàn)在商業(yè)公司全都要。今天我們探索的架構(gòu),現(xiàn)在還沒有很好的結(jié)論,還在做試驗(yàn),可以看到優(yōu)點(diǎn)和缺點(diǎn)。
但我覺得是挺好的方向,因?yàn)镸OE確實(shí)有可能實(shí)現(xiàn)無限的上下文。但一些常見的長序列任務(wù),比如一些常見的程序類的任務(wù),比如抽取類的任務(wù),有時還不如其他的方案。
所以,我們現(xiàn)在可能在做Transformer的同時,還會關(guān)注MOE。
當(dāng)然,孔老師的方向,Diffusion LLM(擴(kuò)散語言模型)我們也在關(guān)注,這是另外一條線。目前看起來,擴(kuò)散語言模型在數(shù)學(xué)和代碼,以及推理類的任務(wù)上,表現(xiàn)確實(shí)挺好的。
這挺出乎意料,因?yàn)楫?dāng)年我們做自回歸的各種實(shí)驗(yàn)的時候,相關(guān)的任務(wù)還挺失敗。但現(xiàn)在擴(kuò)散模型的表現(xiàn)還挺好。但它的通用能力,現(xiàn)在還有比較大的提升空間。
我覺得大家都在不同的方向做探索,看誰能摸中彩票。
現(xiàn)在每一次下賭注,成本變得越來越高
西亭:當(dāng)前業(yè)界聚焦什么樣的一些模型優(yōu)化方法?你認(rèn)為效率優(yōu)化空間最大的方向可能有哪些?
林俊旸:大家都非常關(guān)注現(xiàn)在DeepSeek的每一步的動向。當(dāng)時看到DeepSeek能把MOE的稀疏比(激活的專家數(shù)量與總專家數(shù)量的比值)做到這么大,還是挺驚喜的。
但其實(shí)我們也已經(jīng)做到差不多的稀疏比。當(dāng)時我們試驗(yàn)?zāi)P偷男屎托Ч纯茨P湍懿荒茉谧兇蟮耐瑫r保持效率。結(jié)果,1:20的稀疏比一般實(shí)驗(yàn)效果比較好,但1:10是相對更加保守的選項(xiàng)。所以我們更多在這個區(qū)間里邊。
但DeepSeek可能做得更好一些,稀疏比能達(dá)到1:20+。
MOE值得進(jìn)一步去探索,專家數(shù)越多,越稀疏,訓(xùn)練的穩(wěn)定性肯定變差。相應(yīng)的,我們要針對訓(xùn)練穩(wěn)定性,去做相應(yīng)的一些優(yōu)化。
但針對模型結(jié)構(gòu),今天要更安全地進(jìn)行考慮。模型架構(gòu)有可能對預(yù)訓(xùn)練非常友好,但對強(qiáng)化學(xué)習(xí)非常不友好,這會帶來很多困難。所以現(xiàn)在每一次下賭注,成本變得越來越高。
同時本身模型的結(jié)構(gòu)也要提前考慮到長序列的問題。
所以我覺得效果效率聯(lián)合優(yōu)化,一個是看模型是不是變得更大、更稀疏,另一個能不能支持更長的序列;同時在訓(xùn)練的時候,長序列的訓(xùn)練不要變得更慢。
西亭:多模態(tài)領(lǐng)域如何通過架構(gòu)創(chuàng)新實(shí)現(xiàn)突破?
曹越:2021年的時候我們也對Transformer進(jìn)行了“魔改”,做了一個叫做Spring Transformer的工作,那個時間點(diǎn)在計(jì)算機(jī)視覺領(lǐng)域還算不錯。
但往后想,大家“魔改”Transformer,很多時候是在改先驗(yàn)。改先驗(yàn)的過程有個非常關(guān)鍵的問題,就是:你的先驗(yàn)會不會影響模型效果的天花板。
一個探索維度是,在attention(注意力)中,怎么加入加合適的先驗(yàn)sparse(稀疏化,從而減少計(jì)算復(fù)雜度),我覺得這是ROI(投入產(chǎn)出比)很高的事情。
另一個維度,整個多模態(tài)領(lǐng)域很多時候涉及多種不同Token類型的融合。這個過程如果在attention做合適的sparse,就能夠顯著提升跨模態(tài)融合的效率。
還有一個維度是,怎么做到從Tokenize(編碼)到聯(lián)合建模的端到端優(yōu)化。
西亭:怎么提升Transformer的可解釋性,以及降低幻覺?
孔令鵬:我想先回復(fù)一下曹越。我覺得在大家看似相反的道路上面,其實(shí)并不是一個矛盾的狀況。
我們做的其實(shí)就是找到一個最好能夠適應(yīng)數(shù)據(jù)的Bias,或者我相信我的模型能去除所有的Bias,但這也對我的模型提出了更高的要求。
說回模型的可解釋性和幻覺,Transformer要不要背這個鍋是值得商榷的。
我也想問俊旸一件事。因?yàn)橛幸环N說法是,強(qiáng)化學(xué)習(xí)這套范式,對模型后期的“幻覺”可能不是好消息,因?yàn)樗赡軐W(xué)到了一些錯誤的推理模式。
在Qwen 3和Qwen 2.5中,有沒有看到這樣的現(xiàn)象?
林俊旸:我只能自揭其短。“幻覺”我們確實(shí)沒有辦法控制。
所以現(xiàn)在要解決幾個問題。一個是怎么把“幻覺”降下來,反過來通過強(qiáng)化學(xué)習(xí)的辦法去解決。
另一個是和“幻覺”相關(guān),或者是跟可解釋性相關(guān)的事。我們現(xiàn)在在做一些SAE(稀疏自編碼器)相關(guān)的研究,發(fā)現(xiàn)有些問題的出現(xiàn),可能和一些特征有非常緊密的關(guān)聯(lián)。所以我們通過SAE,找到一些特征,然后壓抑它們。
就算做強(qiáng)化學(xué)習(xí),發(fā)現(xiàn)有“幻覺”的問題,這也不可怕,就看接下來怎么解決。
孔令鵬:一個架構(gòu),首先是和硬件聯(lián)合考慮的。架構(gòu)之后又會到來新的問題、新的架構(gòu),比如有一些架構(gòu)不適合做強(qiáng)化學(xué)習(xí)。
我的感覺是,不要用“GPU+自回歸/Transformer+預(yù)訓(xùn)練/SFT(監(jiān)督微調(diào))+強(qiáng)化學(xué)習(xí)”這樣一個固定不變的模式,去考慮所有的事情。
林俊旸:未來可能是會發(fā)生變化的。主要我們也沒得選,只能用GPU訓(xùn)練。
我問過懂硬件的朋友,他說GPU不太適合訓(xùn)Transformer,我也不可能自己造一款。
但是我們公司可以去做,或者中國反而有一定的機(jī)會做軟硬一體。所以將來我們能把問題想得更深一些。
創(chuàng)造其實(shí)是一個搜索層面的問題
西亭:目前預(yù)訓(xùn)練的邊際效應(yīng)好像已經(jīng)開始遞減。怎么通過架構(gòu)的革新,突破目前的瓶頸?
林俊旸:先說達(dá)到瓶頸這個問題,我是保留疑問的。
因?yàn)槿ツ暾f預(yù)訓(xùn)練要結(jié)束了,這成為了共識。但今年大家瘋狂追求非共識。現(xiàn)在美國涌現(xiàn)了新的非共識,叫做預(yù)訓(xùn)練還沒結(jié)束。
我不知道該高興,還是不高興。干這一行,我也知道自己差在哪,反正有挺多要補(bǔ)。
如果你覺得千問做得還可以,那我覺得預(yù)訓(xùn)練大有可為。因?yàn)槲夷苷f的是,我們還有好多數(shù)據(jù)沒放進(jìn)去,放一次提升一次。把模型稍微改改,放大一點(diǎn),性能又提升一次。
西亭:多模態(tài)領(lǐng)域,下一代的架構(gòu)可能有哪些值得關(guān)注的點(diǎn)?
曹越:我非常同意俊旸的說法。去年說預(yù)訓(xùn)練要結(jié)束了,語言數(shù)據(jù)快用完了,圖像視頻數(shù)據(jù)還大有可為,這是我自己一個初步的感覺。
另外一個維度,我覺得下一代的架構(gòu)還是有挺多大家比較常用的東西。過一段時間大家可以把它拎出來,再看看它是不是常用,或者說它實(shí)際上是不是運(yùn)用了某種先驗(yàn),但是大家平時沒有注意到。
如果我們?nèi)タ催^去十幾年的發(fā)展史,這其實(shí)是一個算力越來越多,整個訓(xùn)練過程中Bias越來越少的過程。
現(xiàn)在我們有新的算力,在算力比以往充足的情況下,之前一些不太能用的技術(shù),可以拎出來再試一試。
還有一個很容易被大家忽略的部分是優(yōu)化算力。
西亭:未來模型如何突破理解和生成,走向所謂的智能性創(chuàng)造,甚至創(chuàng)造出一些新的智能?
孔令鵬:這其實(shí)是一個現(xiàn)在的模型如何能夠在智能上更進(jìn)一步的問題。
比如說創(chuàng)作。創(chuàng)作其實(shí)仍然是一個搜索層面的問題。一句話20個詞,給你兩千個單詞,它就是有那么多可能性。最終就是在所有的可能性中找到一種。
所以我有時候覺得,如果你把創(chuàng)造理解為一個搜索問題,那它在將來很可能是可以被解決的。
最后我想說的是,不要太焦慮于預(yù)測未來,很多時候我們沒有辦法,或者說從來也沒有辦法真正預(yù)測未來。
我們只能到某一步的時候,回過頭來看一個東西是不是有進(jìn)步,回過頭來發(fā)現(xiàn)GPT-4o相對GPT-4是進(jìn)步,4相對3又是進(jìn)步。
我看過一個心靈雞湯,分享給大家:
有一個問題:飛機(jī)在飛行的時候,有多少的時間在它規(guī)定的航跡上?答案是0%,因?yàn)樗煌5卦谡{(diào)整,把它調(diào)整到既定的航道上。但是它從來沒有在既定的航道上過。
所以預(yù)測也許沒有那么大的指導(dǎo)意義。不要害怕犯錯,犯錯之后去修正你的錯誤,回過頭看一下什么東西在進(jìn)步。這可能是一個不那么焦慮的態(tài)度。
歡迎交流!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.