5月17日,由搜狐主辦的2025搜狐科技年度論壇在北京盛大開(kāi)幕。多位院士、科學(xué)家與產(chǎn)業(yè)界人士齊聚一堂,激發(fā)智慧的深度碰撞,奔赴科技的星辰大海。
本屆論壇線上線下結(jié)合,開(kāi)啟全天的思想盛宴。在上午的線上直播中,階躍星辰副總裁李璟發(fā)表主題演講《迎接視覺(jué)領(lǐng)域的GPT-4時(shí)刻》,分享了大模型技術(shù)和應(yīng)用層面的思考。
他表示,今年以來(lái)大模型廠商密集的模型發(fā)布,意味著追求智能的上限仍然是當(dāng)下最重要的事情。“我們始終認(rèn)為多模態(tài)對(duì)AGI的實(shí)現(xiàn)非常重要,是實(shí)現(xiàn)AGI的必經(jīng)之路。”
對(duì)大模型的下一步發(fā)展,李璟表示,階躍星辰主要會(huì)在兩個(gè)方向發(fā)力。一是在預(yù)訓(xùn)練的基礎(chǔ)上加上強(qiáng)化學(xué)習(xí),提高模型的推理能力。“強(qiáng)化學(xué)習(xí)還在早期,還會(huì)延續(xù)一長(zhǎng)段時(shí)間。”
第二個(gè)趨勢(shì)是多模的理解生成一體化。李璟認(rèn)為,文本領(lǐng)域已經(jīng)實(shí)現(xiàn)生成理解任務(wù)的統(tǒng)一,語(yǔ)言模型的技術(shù)路線也已收斂,視覺(jué)模型完全可以按照類似路線往前走。
“第一步就是做海量的圖片視頻的預(yù)訓(xùn)練,實(shí)現(xiàn)predict next frame(預(yù)測(cè)下一幀),這樣生成出來(lái)的視頻會(huì)比Sora的效果要好很多;再加上指令遵循,視覺(jué)任務(wù)就完成了大一統(tǒng)。”
在AI應(yīng)用方面,階躍星辰看好Agent前景。“追求AGI是我們的初心,我們會(huì)堅(jiān)持基礎(chǔ)大模型的研發(fā)。”李璟表示,階躍星辰會(huì)堅(jiān)持進(jìn)行多模態(tài)的探索布局,最終形成從模型到Agent、從云側(cè)到端側(cè)的生態(tài)體系。
以下是演講全文:
各位朋友大家好,我是階躍星辰李璟,非常榮幸能夠有機(jī)會(huì)參加2025搜狐科技年度論壇,代表階躍分享我們最近在大模型技術(shù)研發(fā),還有應(yīng)用方面的一些思考與實(shí)踐。
從2月份以來(lái),國(guó)外頭部的幾家基礎(chǔ)大模型廠商你追我趕,密集發(fā)布了一系列模型。我們可以清楚地感受到一個(gè)趨勢(shì),那就是追求智能的上限仍然是當(dāng)下最重要的事情,也可以看出出主流的技術(shù)脈絡(luò)和共性規(guī)律。
從宏觀上說(shuō),模型的發(fā)展是沿著一條智能演進(jìn)的路線在往前進(jìn)化。兩年前,階躍成立之初為通往AGI規(guī)劃的技術(shù)路線圖,包括了三個(gè)階段:模擬世界、探索世界和歸納世界。
今天我們到底在什么樣的位置?結(jié)合這波密集的發(fā)布,眼下的發(fā)展呈現(xiàn)出兩個(gè)趨勢(shì),第一個(gè)是從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí),第二個(gè)是從多模態(tài)融合走向多模態(tài)理解生成一體化。
在階躍提出的路線圖里面,模擬世界的主要范式是模仿學(xué)習(xí),就是把互聯(lián)網(wǎng)上的所有的數(shù)據(jù)都喂給大模型,通過(guò)預(yù)測(cè)下一個(gè)token這樣的任務(wù)來(lái)學(xué)習(xí)海量數(shù)據(jù)中的結(jié)構(gòu)和特征。
當(dāng)學(xué)會(huì)表征世界之后,下一步就要培養(yǎng)機(jī)器解決問(wèn)題的能力。對(duì)復(fù)雜問(wèn)題的求解,人腦需要系統(tǒng)2的能力,就是慢思考的能力。這也是最近的推理模型,如OpenAI的o1、o3 以及DeepSeek-R1背后所采取到的技術(shù)。
智能的下一個(gè)境界,我們認(rèn)為是機(jī)器通過(guò)自主學(xué)習(xí),主動(dòng)發(fā)現(xiàn)人類尚未發(fā)現(xiàn)的物理規(guī)律。這就有點(diǎn)像蘋(píng)果砸在了牛頓的頭上,發(fā)現(xiàn)了萬(wàn)有引力的定律一樣。這樣AI可以在生物、核能、材料、量子等各個(gè)領(lǐng)域和科學(xué)家一起完成創(chuàng)新,我們把這個(gè)階段稱為歸納世界。
去年OpenAI流傳出的AGI的五個(gè)level分別Chatbot、Reasoner、Agent、Innovator和 Organization。這五個(gè)level和階躍提的三階段的想法基本一致,只是表述有所不同。OpenAI的系列代表模型,基本覆蓋了這個(gè)路線圖的各個(gè)關(guān)鍵節(jié)點(diǎn)。
同時(shí),隨著模型能力的不斷增強(qiáng),模型應(yīng)用也從早期的Chatbot聊天機(jī)器人,到構(gòu)建智能體Agent來(lái)完成復(fù)雜的任務(wù),并且進(jìn)一步從數(shù)字世界跨到物理世界,比如和智能終端和設(shè)備的結(jié)合。應(yīng)用也是跟著模型能力走的,有什么樣的模型決定了什么樣的應(yīng)用可以成熟和繁榮。
階躍的發(fā)展也基本繞圍繞著這樣的路線圖進(jìn)行,過(guò)去兩年已經(jīng)建成了 Step系列的通用大模型矩陣。我們的基礎(chǔ)模型可以分成語(yǔ)言模型和多模態(tài)模型,多模態(tài)又涵蓋圖像、視頻、聲音各個(gè)模態(tài),每個(gè)模態(tài)按功能可以細(xì)分為理解模型和生成模型。
所以階躍形成了綜合全面、多模領(lǐng)先的基礎(chǔ)大模型矩陣,我們始終認(rèn)為多模態(tài)對(duì)AGI的實(shí)現(xiàn)非常重要,是實(shí)現(xiàn)AGI的必經(jīng)之路。
首先,AGI對(duì)標(biāo)的是人類智能。人的智能是多元化的,不僅來(lái)自于語(yǔ)言的符號(hào)智能,還包括視覺(jué)智能、空間智能、運(yùn)動(dòng)智能等,這些智能必須通過(guò)視覺(jué)和其他模態(tài)進(jìn)行學(xué)習(xí),任何方面出現(xiàn)短板都有可能延緩AGI的進(jìn)程。從應(yīng)用角度來(lái)看,無(wú)論是垂直領(lǐng)域的應(yīng)用,還是C端應(yīng)用,多模態(tài)往往也必不可少。
階躍模型下一步的發(fā)展,有兩個(gè)明顯趨勢(shì)。第一個(gè)趨勢(shì)就是在預(yù)訓(xùn)練的基礎(chǔ)上加上強(qiáng)化學(xué)習(xí),激發(fā)模型在推理的時(shí)候產(chǎn)生長(zhǎng)思維鏈,從而極大提高模型的推理能力。推理模型已經(jīng)從一個(gè)趨勢(shì)變成一個(gè)確定性的范式,階躍預(yù)計(jì)會(huì)在未來(lái)兩三個(gè)月發(fā)布滿血版的推理模型Step-R1。
我們認(rèn)為強(qiáng)化學(xué)習(xí)還在早期,還會(huì)延續(xù)一長(zhǎng)段時(shí)間,比如推理效率的提高、獎(jiǎng)勵(lì)函數(shù)的進(jìn)一步泛化、合成數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練等等,都是需要解決的熱點(diǎn)問(wèn)題,階躍也會(huì)在這方面持續(xù)投入。
除了語(yǔ)言模型之外,階躍還率先把推理能力引到了多模態(tài)領(lǐng)域,確切的說(shuō)是視覺(jué)理解領(lǐng)域。引入推理能力和長(zhǎng)思維鏈能力之后,視覺(jué)模型就可以更加精準(zhǔn)的理解物理世界,很多應(yīng)用都需要這樣的能力。
除了推理模型之外,第二個(gè)趨勢(shì)是多模的理解生成一體化,更準(zhǔn)確地說(shuō)是視覺(jué)領(lǐng)域的生成理解一體化。什么叫生成理解一體化?就是理解和生成用一個(gè)模型來(lái)完成。
文本領(lǐng)域已經(jīng)做到了理解生成一體化,但在視覺(jué)領(lǐng)域理解需要理解模型,生成用的是生成模型。為什么一定要做生成理解一體化?因?yàn)樾枰斫饽P蛠?lái)預(yù)測(cè)內(nèi)容,生成需要理解來(lái)控制。
從另一個(gè)角度說(shuō),理解需要生成來(lái)監(jiān)督。就像費(fèi)曼說(shuō),What can I not create I do not understand。如果可以生成的話,那就說(shuō)明真的理解了。
ChatGPT模型之所以產(chǎn)生了跨時(shí)代的理解能力,就是因?yàn)樗胮redict next token這樣生成的任務(wù)來(lái)做監(jiān)督信號(hào),而在視覺(jué)領(lǐng)域并沒(méi)有出現(xiàn)這樣的predict next frame模式。到今天為止,視覺(jué)領(lǐng)域也并沒(méi)有出現(xiàn)大規(guī)模的預(yù)訓(xùn)練來(lái)刻畫(huà)物理世界的規(guī)律。
為了進(jìn)一步說(shuō)明理解生成一體化的這個(gè)重要性,可以先看語(yǔ)言模型的技術(shù)路線發(fā)展,它經(jīng)歷了三個(gè)重大的技術(shù)節(jié)點(diǎn)。首先是20117年推出了Transformer,意義是在于scalable的文本理解生成一體化模型。2020年GPT -3被訓(xùn)練出來(lái)了,它用互聯(lián)網(wǎng)海量的文本數(shù)據(jù)做了預(yù)訓(xùn)練,從此進(jìn)入到了大語(yǔ)言模型時(shí)代。
2022年的InstructGPT,也就是GPT -3.5,解決了指令跟隨的問(wèn)題,從此NLP的任務(wù)實(shí)現(xiàn)了大一統(tǒng),一個(gè)模型搞定了所有NLP的任務(wù)。再往后就是24年底推出了推理模型,可以用長(zhǎng)思維鏈思考處理復(fù)雜問(wèn)題。
下一步是什么?可能是自主學(xué)習(xí)。所以,語(yǔ)言模型的技術(shù)路線已經(jīng)收斂,視覺(jué)模型完全可以按照這個(gè)樣板一步步往前走。但視覺(jué)模型在第一步就被卡住了,現(xiàn)在只能理解生成各自發(fā)展。
要做好視覺(jué)的理解生成一體化,第一步要做做海量的圖片視頻的預(yù)訓(xùn)練,也就是說(shuō)可以 predict next frame,這樣生成出來(lái)的視頻會(huì)比Sora的效果要好很多。再加上指令遵循,那么視覺(jué)任務(wù)就完成了大一統(tǒng),一個(gè)模型搞定所有視覺(jué)任務(wù)。
接下來(lái)做時(shí)空推理,這就會(huì)使得自動(dòng)駕駛和機(jī)器人這樣的應(yīng)用能夠上一個(gè)大臺(tái)階。當(dāng)前自動(dòng)駕駛和機(jī)器人問(wèn)題都是泛化性不足,沒(méi)見(jiàn)過(guò)的東西就不會(huì)做,但人如果沒(méi)有經(jīng)歷的話,人會(huì)腦補(bǔ)或者演繹,或者去嘗試各種action的各種結(jié)果,最后選擇一個(gè)更好的。這個(gè)就需要理解生成一體化,最后加上3D 模型,加上自主學(xué)習(xí)的進(jìn)化能力,我認(rèn)為就是世界模型了,到了這一天也就是AGI來(lái)臨了,所以多模態(tài)是AGI的必經(jīng)之路。
最近在理解生成一體化上,GPT-4o的最新版是一個(gè)很重大的突破,階躍這方面更先進(jìn)的技術(shù)會(huì)在未來(lái)幾個(gè)月發(fā)布。
在應(yīng)用方面,眼下最熱的應(yīng)用概念就是Agent。很多人也會(huì)認(rèn)為2025年會(huì)是Agent 的元年,為什么Agent會(huì)在眼下變得火熱?我想這跟 Agent的爆發(fā)需要的兩個(gè)必要條件有關(guān),一個(gè)是多模態(tài)的能力,一個(gè)是慢思考的能力,這兩個(gè)能力在2024年都取得突破性的進(jìn)展。
基于自主研發(fā)的強(qiáng)大模型矩陣,我們跟合作伙伴一起打造了垂類的Agent以及智能終端的Agent。比如我們跟OPPO合作打造了手機(jī)Agent,跟吉利合作展示了最新的智能座艙。此外,還和具身機(jī)器人公司合作,這塊目前還比較早期,需要大家非常深入密切的合作。
最后,表達(dá)三句話,第一,追求AGI是我們的初心,我們不會(huì)改變,會(huì)堅(jiān)持基礎(chǔ)大模型的研發(fā)。第二,在整個(gè)競(jìng)爭(zhēng)格局里面,階躍差異化的特點(diǎn)就是多模態(tài)能力,不僅能力在行業(yè)里面領(lǐng)先,也始終走在探索的前沿方向,這里面機(jī)會(huì)巨大。
在應(yīng)用層面,階躍也是差異化的道路,就是攜手合作伙伴發(fā)力智能終端的Agent,最終形成從模型到Agent,從云側(cè)到端側(cè)的生態(tài)體系。我們認(rèn)為軟硬結(jié)合才能更好地理解用戶的需求,完成用戶的任務(wù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.