99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

三位頂流AI技術人罕見同臺,談了談AI行業最大的「羅生門」

0
分享至

文|周鑫雨

編輯|蘇建勛

預訓練還是不是王道?如今AI行業,這是最大的“羅生門”事件。

2023年,模型預訓練,還是第一性原理。然而,從OpenAI前首席科學家Ilya公開喊話“預訓練已走到盡頭”,到聚焦強化學習的DeepSeek R1出圈,又昭示著預訓練風光不再。

從人人追捧,到口碑滑坡,預訓練境遇的變化,是AI行業“共識”與“非共識”不斷流動的一個縮影。

針對AI技術的共識與非共識,2025年5月27日的“技術開放日”上,螞蟻集團攢了一個交流局。

圓桌對話的參與者,是當下最熱的創業者、技術高管和學者:

曹越,視頻模型公司Sand.AI創始人,前光年之外聯創。2024年7月完成兩輪融資后,公司估值已經超過1億美元;

林俊旸,阿里通義千問(Qwen)技術負責人。從2021年發布的M6,到2025年的Qwen3,他都是名副其實的模型一把手;

孔令鵬,香港大學助理教授、NLP LAB聯合主任。其牽頭研發的擴散推理模型Dream 7B,成為了開源擴散語言模型的新SOTA。


△圖源:作者拍攝

某種意義上,曹越和孔令鵬,都在探尋AI“非共識”的過程中收獲頗豐——他們都試圖將語言模型和視覺模型訓練的主流架構,分別應用到對方身上:

通過把多模態的主流架構Diffusion Model,運用在語言模型中,孔令鵬參與研發的Dream 7B,用僅7B的參數量,在多個任務上表現優于671B的DeepSeek V3。

反過來,曹越則將語言模型主流的自回歸(Auto Regressive)路線,運用到了視頻模型的訓練中,實現了生成視頻長度的無限擴展。

他們的經歷代表著如今AI行業最性感的一面:擁抱非共識,實現創新。

相對的,阿里給外界的印象,則是擁抱共識:長期以來,千問發布的都是Dense(稠密)模型,曾經的主流。直到2025年2月,團隊才推出了首個MoE模型。

作為負責人的林俊旸,也常常聽到外界批評的聲音:“千問是不是太保守了?”在圓桌上,他做出了澄清:“我們并不保守,只是做了一大堆實驗后失敗了。真是一個難過的事情。”

這也是AI行業的另一面:共識,往往代表著占多數的成功經驗。

2023年,阿里訓練千問大模型時,林俊旸形容,內部曾多次“魔改”Transformer架構。然而他們最終發現,Transformer還是最優解。

當然,三人都感受到的一個變化是:去年還在信仰強共識,今年大家都開始尋找非共識。

如今的行業,林俊旸打了個比方,大家都在不同的方向做探索,看誰能摸中彩票。“大家看似在相反的道路上,其實都不矛盾。”孔令鵬也有類似的觀點。

一個案例是,無論是像孔令鵬那樣,在語言模型的基礎上做Diffusion,還是像曹越那樣,在視頻模型上做自回歸,都是為了平衡Model Bias(模型偏差)和Data Bias(數據偏差),達到更好的效果。

以及,關于預訓練,近期在美國又涌現了新的非共識:預訓練還沒結束。當下林俊旸也是站在新非共識的一方。他透露:“我們還有好多數據沒放進(千問),放一次提升一次。”

以下是《智能涌現》對圓桌內容的整理,內容經過編輯:

千問并不保守,只是一大堆實驗都失敗了

螞蟻百靈大模型負責人周俊(花名:西亭):用擴散模型來做語言生成背后的思考是什么?

孔令鵬:在你不了解你的數據時,不要對數據做更多的假設,讓模型去接管更多的東西,這是我們將擴散模型用于語言模型訓練的原因。

有些數據是有從左往右的Bias(偏差,指輸出結果與真實結果的差別),比如3+3=6,不可能先有6,再去補前面的過程。另外一些數據,比如我開三個會,A會在B會后面,B會必須在中午,這就意味著數據不可能完全從左到右。

以Gemini Diffusion這樣的文本擴散模型為例,它是一個比從左往右學習的自回歸模型更少假設的模型,它可以雙向學習,也可以處理并行的任務。

西亭:請結合實踐,分享一下多模態領域主流架構面臨的技術挑戰。

曹越:語言和視頻在某種意義上還是比較像的,它們在時間維度上都有比較強的因果先驗,也就是時間上的因果關系。

去年年初發布的Sora,其實沒有這種先驗,生成的5秒視頻,是直接用一個模型來做建模。

我們自己的感受是,視頻時序的因果先驗還是很強的,人看視頻的時候是有順序的。為什么有順序?因為視頻信息的存儲方式是有順序的。

我們如果能夠設計出一種訓練方式,能夠編碼時間維度上的順序關系,我可能可以更大程度壓榨視頻中的信息,從而使得模型最終的天花板更高。

西亭:分享一下對Transformer架構認知的變化,以及你怎么看待Transformer目前面臨的挑戰。

林俊旸:我對Transformer感觸特別深,因為剛開始干這行沒多久,Transformer就來了。所以我個人還是比較感謝Transformer。

一路過來,我們嘗試去改很多東西,但是最終發現Transformer確實挺好用的。2022年的時候,大家都會去改一些細節,比如說對Transformer的激活函數做一些相應的改動。感受是,谷歌還是太強了,PaLM(谷歌基于Transformer訓練的模型)還是挺好使的。

尤其2023年,我們剛開始做千問,剛開始也挺掙扎。可能有一些同學用過我們早期的模型,花樣特別多,搞了半天發現,基礎模型結構還是不能亂動。所以我覺得這還是有一點玄學的。

大家對千問有一種批評,是說覺得我們相對比較保守。其實我們并不保守,做了一大堆的試驗都失敗了,這是一個難過的事情。

還有一件值得關注的事,MOE模型。我們2021年就在做MOE,當時是M6模型。當時發現MOE挺能Scale的,只是這個模型不強。

MOE還是值得走的,因為今天說白了,效果和效率,現在商業公司全都要。今天我們探索的架構,現在還沒有很好的結論,還在做試驗,可以看到優點和缺點。

但我覺得是挺好的方向,因為MOE確實有可能實現無限的上下文。但一些常見的長序列任務,比如一些常見的程序類的任務,比如抽取類的任務,有時還不如其他的方案。

所以,我們現在可能在做Transformer的同時,還會關注MOE。

當然,孔老師的方向,Diffusion LLM(擴散語言模型)我們也在關注,這是另外一條線。目前看起來,擴散語言模型在數學和代碼,以及推理類的任務上,表現確實挺好的。

這挺出乎意料,因為當年我們做自回歸的各種實驗的時候,相關的任務還挺失敗。但現在擴散模型的表現還挺好。但它的通用能力,現在還有比較大的提升空間。

我覺得大家都在不同的方向做探索,看誰能摸中彩票。

現在每一次下賭注,成本變得越來越高

西亭:當前業界聚焦什么樣的一些模型優化方法?你認為效率優化空間最大的方向可能有哪些?

林俊旸:大家都非常關注現在DeepSeek的每一步的動向。當時看到DeepSeek能把MOE的稀疏比(激活的專家數量與總專家數量的比值)做到這么大,還是挺驚喜的。

但其實我們也已經做到差不多的稀疏比。當時我們試驗模型的效率和效果,看看模型能不能在變大的同時保持效率。結果,1:20的稀疏比一般實驗效果比較好,但1:10是相對更加保守的選項。所以我們更多在這個區間里邊。

但DeepSeek可能做得更好一些,稀疏比能達到1:20+。

MOE值得進一步去探索,專家數越多,越稀疏,訓練的穩定性肯定變差。相應的,我們要針對訓練穩定性,去做相應的一些優化。

但針對模型結構,今天要更安全地進行考慮。模型架構有可能對預訓練非常友好,但對強化學習非常不友好,這會帶來很多困難。所以現在每一次下賭注,成本變得越來越高。

同時本身模型的結構也要提前考慮到長序列的問題。

所以我覺得效果效率聯合優化,一個是看模型是不是變得更大、更稀疏,另一個能不能支持更長的序列;同時在訓練的時候,長序列的訓練不要變得更慢。

西亭:多模態領域如何通過架構創新實現突破?

曹越:2021年的時候我們也對Transformer進行了“魔改”,做了一個叫做Spring Transformer的工作,那個時間點在計算機視覺領域還算不錯。

但往后想,大家“魔改”Transformer,很多時候是在改先驗。改先驗的過程有個非常關鍵的問題,就是:你的先驗會不會影響模型效果的天花板。

一個探索維度是,在attention(注意力)中,怎么加入加合適的先驗sparse(稀疏化,從而減少計算復雜度),我覺得這是ROI(投入產出比)很高的事情。

另一個維度,整個多模態領域很多時候涉及多種不同Token類型的融合。這個過程如果在attention做合適的sparse,就能夠顯著提升跨模態融合的效率。

還有一個維度是,怎么做到從Tokenize(編碼)到聯合建模的端到端優化。

西亭:怎么提升Transformer的可解釋性,以及降低幻覺?

孔令鵬:我想先回復一下曹越。我覺得在大家看似相反的道路上面,其實并不是一個矛盾的狀況。

我們做的其實就是找到一個最好能夠適應數據的Bias,或者我相信我的模型能去除所有的Bias,但這也對我的模型提出了更高的要求。

說回模型的可解釋性和幻覺,Transformer要不要背這個鍋是值得商榷的。

我也想問俊旸一件事。因為有一種說法是,強化學習這套范式,對模型后期的“幻覺”可能不是好消息,因為它可能學到了一些錯誤的推理模式。

在Qwen 3和Qwen 2.5中,有沒有看到這樣的現象?

林俊旸:我只能自揭其短。“幻覺”我們確實沒有辦法控制。

所以現在要解決幾個問題。一個是怎么把“幻覺”降下來,反過來通過強化學習的辦法去解決。

另一個是和“幻覺”相關,或者是跟可解釋性相關的事。我們現在在做一些SAE(稀疏自編碼器)相關的研究,發現有些問題的出現,可能和一些特征有非常緊密的關聯。所以我們通過SAE,找到一些特征,然后壓抑它們。

就算做強化學習,發現有“幻覺”的問題,這也不可怕,就看接下來怎么解決。

孔令鵬:一個架構,首先是和硬件聯合考慮的。架構之后又會到來新的問題、新的架構,比如有一些架構不適合做強化學習。

我的感覺是,不要用“GPU+自回歸/Transformer+預訓練/SFT(監督微調)+強化學習”這樣一個固定不變的模式,去考慮所有的事情。

林俊旸:未來可能是會發生變化的。主要我們也沒得選,只能用GPU訓練。

我問過懂硬件的朋友,他說GPU不太適合訓Transformer,我也不可能自己造一款。

但是我們公司可以去做,或者中國反而有一定的機會做軟硬一體。所以將來我們能把問題想得更深一些。

創造其實是一個搜索層面的問題

西亭:目前預訓練的邊際效應好像已經開始遞減。怎么通過架構的革新,突破目前的瓶頸?

林俊旸:先說達到瓶頸這個問題,我是保留疑問的。

因為去年說預訓練要結束了,這成為了共識。但今年大家瘋狂追求非共識。現在美國涌現了新的非共識,叫做預訓練還沒結束。

我不知道該高興,還是不高興。干這一行,我也知道自己差在哪,反正有挺多要補。

如果你覺得千問做得還可以,那我覺得預訓練大有可為。因為我能說的是,我們還有好多數據沒放進去,放一次提升一次。把模型稍微改改,放大一點,性能又提升一次。

西亭:多模態領域,下一代的架構可能有哪些值得關注的點?

曹越:我非常同意俊旸的說法。去年說預訓練要結束了,語言數據快用完了,圖像視頻數據還大有可為,這是我自己一個初步的感覺。

另外一個維度,我覺得下一代的架構還是有挺多大家比較常用的東西。過一段時間大家可以把它拎出來,再看看它是不是常用,或者說它實際上是不是運用了某種先驗,但是大家平時沒有注意到。

如果我們去看過去十幾年的發展史,這其實是一個算力越來越多,整個訓練過程中Bias越來越少的過程。

現在我們有新的算力,在算力比以往充足的情況下,之前一些不太能用的技術,可以拎出來再試一試。

還有一個很容易被大家忽略的部分是優化算力。

西亭:未來模型如何突破理解和生成,走向所謂的智能性創造,甚至創造出一些新的智能?

孔令鵬:這其實是一個現在的模型如何能夠在智能上更進一步的問題。

比如說創作。創作其實仍然是一個搜索層面的問題。一句話20個詞,給你兩千個單詞,它就是有那么多可能性。最終就是在所有的可能性中找到一種。

所以我有時候覺得,如果你把創造理解為一個搜索問題,那它在將來很可能是可以被解決的。

最后我想說的是,不要太焦慮于預測未來,很多時候我們沒有辦法,或者說從來也沒有辦法真正預測未來。

我們只能到某一步的時候,回過頭來看一個東西是不是有進步,回過頭來發現GPT-4o相對GPT-4是進步,4相對3又是進步。

我看過一個心靈雞湯,分享給大家:

有一個問題:飛機在飛行的時候,有多少的時間在它規定的航跡上?答案是0%,因為它不停地在調整,把它調整到既定的航道上。但是它從來沒有在既定的航道上過。

所以預測也許沒有那么大的指導意義。不要害怕犯錯,犯錯之后去修正你的錯誤,回過頭看一下什么東西在進步。這可能是一個不那么焦慮的態度。

歡迎交流!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
臺球室有點亂!記者暗訪臺球助教服務,女生:晚上來,更放得開

臺球室有點亂!記者暗訪臺球助教服務,女生:晚上來,更放得開

唐小糖說情感
2025-05-10 10:58:48
10個億換不來10分鐘?億萬身家命難留,上午簽單下午就突然離世

10個億換不來10分鐘?億萬身家命難留,上午簽單下午就突然離世

小故事娛樂
2025-05-25 09:40:02
凱特不計前嫌仍掛念哈里,威廉命令她停止打電話給他,夫妻生嫌?

凱特不計前嫌仍掛念哈里,威廉命令她停止打電話給他,夫妻生嫌?

手工制作阿殲
2025-05-30 04:16:58
中共中央批準:趙辰昕任河北省委常委

中共中央批準:趙辰昕任河北省委常委

極目新聞
2025-05-29 18:49:52
央視直播!鄭欽文17點登場戰18歲黑馬 沖215萬獎金+法網最佳戰績

央視直播!鄭欽文17點登場戰18歲黑馬 沖215萬獎金+法網最佳戰績

我愛英超
2025-05-29 19:47:07
揭秘朝鮮政變內幕:金正哲張成澤聯手,一細節敗露,雙雙遭遇反殺

揭秘朝鮮政變內幕:金正哲張成澤聯手,一細節敗露,雙雙遭遇反殺

紅豆講堂
2024-08-20 00:30:03
黃子韜賣的衛生巾,現在有部分粉絲購買后,建議大家避雷,說漏

黃子韜賣的衛生巾,現在有部分粉絲購買后,建議大家避雷,說漏

西樓知趣雜談
2025-05-29 06:18:43
三大人民幣匯率報價全線走貶

三大人民幣匯率報價全線走貶

北京商報
2025-05-29 10:10:05
記者:阿萊格里已與米蘭達成協議,據悉雙方將簽約至2028年

記者:阿萊格里已與米蘭達成協議,據悉雙方將簽約至2028年

懂球帝
2025-05-29 18:17:17
投資3200億,中國批準修建歷史上最昂貴的運河,為何成為國際焦點

投資3200億,中國批準修建歷史上最昂貴的運河,為何成為國際焦點

劉振起觀點
2025-05-29 10:09:44
郭亞雄主任:蘋果和一物煮水喝,是肺結節的天然“散結劑”!

郭亞雄主任:蘋果和一物煮水喝,是肺結節的天然“散結劑”!

蠟筆小小子
2025-05-28 13:39:12
離婚剛6年,深夜宣布喜訊的馬伊琍,已經是文章高攀不起的存在

離婚剛6年,深夜宣布喜訊的馬伊琍,已經是文章高攀不起的存在

窺史
2025-05-28 19:19:23
突然宣布!6月9日起,天津這家大型商超停業!為期9天的大清倉即將開始!

突然宣布!6月9日起,天津這家大型商超停業!為期9天的大清倉即將開始!

天津人
2025-05-29 20:32:24
銀行問你取錢干嘛?記住3句“萬能話術”,讓柜員閉嘴乖乖辦業務

銀行問你取錢干嘛?記住3句“萬能話術”,讓柜員閉嘴乖乖辦業務

詩詞中國
2025-05-28 12:59:14
北師大文學院兩教師簡介用動漫頭像?官方:尊重教師的自主權

北師大文學院兩教師簡介用動漫頭像?官方:尊重教師的自主權

青年家
2025-05-29 11:54:28
沈陽早知道|33℃!端午假期有雨~

沈陽早知道|33℃!端午假期有雨~

沈陽百姓一家親
2025-05-30 00:09:46
演員邵汶:為照顧重病父母,50歲仍單身,如今靠《藏海傳》翻紅

演員邵汶:為照顧重病父母,50歲仍單身,如今靠《藏海傳》翻紅

素衣讀史
2025-05-29 17:19:32
胡荷韜:大家都知道我們整體實力不如印尼,但到這步就要放手一搏

胡荷韜:大家都知道我們整體實力不如印尼,但到這步就要放手一搏

雷速體育
2025-05-29 23:04:14
美國法官救了全世界?關稅被叫停,特朗普憤怒上訴,還有5個變量

美國法官救了全世界?關稅被叫停,特朗普憤怒上訴,還有5個變量

獵火照狼山
2025-05-29 17:50:26
吃相難看!岳云鵬演唱會票價高至1580,被網友質疑后,郭德綱回應

吃相難看!岳云鵬演唱會票價高至1580,被網友質疑后,郭德綱回應

墨印齋
2025-05-28 16:38:18
2025-05-30 05:36:49
36氪 incentive-icons
36氪
讓一部分人先看到未來
148276文章數 2845417關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預售

態度原創

時尚
教育
藝術
數碼
軍事航空

這些才是適合夏天的打扮!色彩不沉悶、適當露膚,輕盈又舒適

教育要聞

TTS新傳論文帶讀:是一大批院校瘋狂考查的“數字新聞業”!!!!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

英偉達原生 GeForce NOW 應用登陸 Steam Deck

軍事要聞

以軍承認使用激光武器攔截無人機

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 濮阳县| 安陆市| 陇西县| 锡林浩特市| 乌兰浩特市| 双流县| 宜良县| 黄浦区| 渝中区| 邳州市| 阿合奇县| 北宁市| 奈曼旗| 涿鹿县| 大足县| 竹溪县| 融水| 手游| 呼玛县| 金湖县| 弥勒县| 桦川县| 蓬莱市| 贵溪市| 泸溪县| 济源市| 梁山县| 崇仁县| 开封市| 石阡县| 峨眉山市| 基隆市| 融水| 乐山市| 江油市| 城步| 清涧县| 措美县| 麻阳| 大邑县| 仙居县|