99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

階躍星辰李璟:多模態(tài)是AGI的必經(jīng)之路,視覺(jué)模型可按語(yǔ)言模型路線實(shí)現(xiàn)大一統(tǒng)

0
分享至



5月17日,由搜狐主辦的2025搜狐科技年度論壇在北京盛大開(kāi)幕。多位院士、科學(xué)家與產(chǎn)業(yè)界人士齊聚一堂,激發(fā)智慧的深度碰撞,奔赴科技的星辰大海。

本屆論壇線上線下結(jié)合,開(kāi)啟全天的思想盛宴。在上午的線上直播中,階躍星辰副總裁李璟發(fā)表主題演講《迎接視覺(jué)領(lǐng)域的GPT-4時(shí)刻》,分享了大模型技術(shù)和應(yīng)用層面的思考。

他表示,今年以來(lái)大模型廠商密集的模型發(fā)布,意味著追求智能的上限仍然是當(dāng)下最重要的事情。“我們始終認(rèn)為多模態(tài)對(duì)AGI的實(shí)現(xiàn)非常重要,是實(shí)現(xiàn)AGI的必經(jīng)之路。”

對(duì)大模型的下一步發(fā)展,李璟表示,階躍星辰主要會(huì)在兩個(gè)方向發(fā)力。一是在預(yù)訓(xùn)練的基礎(chǔ)上加上強(qiáng)化學(xué)習(xí),提高模型的推理能力。“強(qiáng)化學(xué)習(xí)還在早期,還會(huì)延續(xù)一長(zhǎng)段時(shí)間。”

第二個(gè)趨勢(shì)是多模的理解生成一體化。李璟認(rèn)為,文本領(lǐng)域已經(jīng)實(shí)現(xiàn)生成理解任務(wù)的統(tǒng)一,語(yǔ)言模型的技術(shù)路線也已收斂,視覺(jué)模型完全可以按照類似路線往前走。

“第一步就是做海量的圖片視頻的預(yù)訓(xùn)練,實(shí)現(xiàn)predict next frame(預(yù)測(cè)下一幀),這樣生成出來(lái)的視頻會(huì)比Sora的效果要好很多;再加上指令遵循,視覺(jué)任務(wù)就完成了大一統(tǒng)。”

在AI應(yīng)用方面,階躍星辰看好Agent前景。“追求AGI是我們的初心,我們會(huì)堅(jiān)持基礎(chǔ)大模型的研發(fā)。”李璟表示,階躍星辰會(huì)堅(jiān)持進(jìn)行多模態(tài)的探索布局,最終形成從模型到Agent、從云側(cè)到端側(cè)的生態(tài)體系。


以下是演講全文:

各位朋友大家好,我是階躍星辰李璟,非常榮幸能夠有機(jī)會(huì)參加2025搜狐科技年度論壇,代表階躍分享我們最近在大模型技術(shù)研發(fā),還有應(yīng)用方面的一些思考與實(shí)踐。

從2月份以來(lái),國(guó)外頭部的幾家基礎(chǔ)大模型廠商你追我趕,密集發(fā)布了一系列模型。我們可以清楚地感受到一個(gè)趨勢(shì),那就是追求智能的上限仍然是當(dāng)下最重要的事情,也可以看出出主流的技術(shù)脈絡(luò)和共性規(guī)律。

從宏觀上說(shuō),模型的發(fā)展是沿著一條智能演進(jìn)的路線在往前進(jìn)化。兩年前,階躍成立之初為通往AGI規(guī)劃的技術(shù)路線圖,包括了三個(gè)階段:模擬世界、探索世界和歸納世界。

今天我們到底在什么樣的位置?結(jié)合這波密集的發(fā)布,眼下的發(fā)展呈現(xiàn)出兩個(gè)趨勢(shì),第一個(gè)是從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí),第二個(gè)是從多模態(tài)融合走向多模態(tài)理解生成一體化。

在階躍提出的路線圖里面,模擬世界的主要范式是模仿學(xué)習(xí),就是把互聯(lián)網(wǎng)上的所有的數(shù)據(jù)都喂給大模型,通過(guò)預(yù)測(cè)下一個(gè)token這樣的任務(wù)來(lái)學(xué)習(xí)海量數(shù)據(jù)中的結(jié)構(gòu)和特征。

當(dāng)學(xué)會(huì)表征世界之后,下一步就要培養(yǎng)機(jī)器解決問(wèn)題的能力。對(duì)復(fù)雜問(wèn)題的求解,人腦需要系統(tǒng)2的能力,就是慢思考的能力。這也是最近的推理模型,如OpenAI的o1、o3 以及DeepSeek-R1背后所采取到的技術(shù)。

智能的下一個(gè)境界,我們認(rèn)為是機(jī)器通過(guò)自主學(xué)習(xí),主動(dòng)發(fā)現(xiàn)人類尚未發(fā)現(xiàn)的物理規(guī)律。這就有點(diǎn)像蘋(píng)果砸在了牛頓的頭上,發(fā)現(xiàn)了萬(wàn)有引力的定律一樣。這樣AI可以在生物、核能、材料、量子等各個(gè)領(lǐng)域和科學(xué)家一起完成創(chuàng)新,我們把這個(gè)階段稱為歸納世界。

去年OpenAI流傳出的AGI的五個(gè)level分別Chatbot、Reasoner、Agent、Innovator和 Organization。這五個(gè)level和階躍提的三階段的想法基本一致,只是表述有所不同。OpenAI的系列代表模型,基本覆蓋了這個(gè)路線圖的各個(gè)關(guān)鍵節(jié)點(diǎn)。

同時(shí),隨著模型能力的不斷增強(qiáng),模型應(yīng)用也從早期的Chatbot聊天機(jī)器人,到構(gòu)建智能體Agent來(lái)完成復(fù)雜的任務(wù),并且進(jìn)一步從數(shù)字世界跨到物理世界,比如和智能終端和設(shè)備的結(jié)合。應(yīng)用也是跟著模型能力走的,有什么樣的模型決定了什么樣的應(yīng)用可以成熟和繁榮。

階躍的發(fā)展也基本繞圍繞著這樣的路線圖進(jìn)行,過(guò)去兩年已經(jīng)建成了 Step系列的通用大模型矩陣。我們的基礎(chǔ)模型可以分成語(yǔ)言模型和多模態(tài)模型,多模態(tài)又涵蓋圖像、視頻、聲音各個(gè)模態(tài),每個(gè)模態(tài)按功能可以細(xì)分為理解模型和生成模型。

所以階躍形成了綜合全面、多模領(lǐng)先的基礎(chǔ)大模型矩陣,我們始終認(rèn)為多模態(tài)對(duì)AGI的實(shí)現(xiàn)非常重要,是實(shí)現(xiàn)AGI的必經(jīng)之路。

首先,AGI對(duì)標(biāo)的是人類智能。人的智能是多元化的,不僅來(lái)自于語(yǔ)言的符號(hào)智能,還包括視覺(jué)智能、空間智能、運(yùn)動(dòng)智能等,這些智能必須通過(guò)視覺(jué)和其他模態(tài)進(jìn)行學(xué)習(xí),任何方面出現(xiàn)短板都有可能延緩AGI的進(jìn)程。從應(yīng)用角度來(lái)看,無(wú)論是垂直領(lǐng)域的應(yīng)用,還是C端應(yīng)用,多模態(tài)往往也必不可少。

階躍模型下一步的發(fā)展,有兩個(gè)明顯趨勢(shì)。第一個(gè)趨勢(shì)就是在預(yù)訓(xùn)練的基礎(chǔ)上加上強(qiáng)化學(xué)習(xí),激發(fā)模型在推理的時(shí)候產(chǎn)生長(zhǎng)思維鏈,從而極大提高模型的推理能力。推理模型已經(jīng)從一個(gè)趨勢(shì)變成一個(gè)確定性的范式,階躍預(yù)計(jì)會(huì)在未來(lái)兩三個(gè)月發(fā)布滿血版的推理模型Step-R1。

我們認(rèn)為強(qiáng)化學(xué)習(xí)還在早期,還會(huì)延續(xù)一長(zhǎng)段時(shí)間,比如推理效率的提高、獎(jiǎng)勵(lì)函數(shù)的進(jìn)一步泛化、合成數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練等等,都是需要解決的熱點(diǎn)問(wèn)題,階躍也會(huì)在這方面持續(xù)投入。

除了語(yǔ)言模型之外,階躍還率先把推理能力引到了多模態(tài)領(lǐng)域,確切的說(shuō)是視覺(jué)理解領(lǐng)域。引入推理能力和長(zhǎng)思維鏈能力之后,視覺(jué)模型就可以更加精準(zhǔn)的理解物理世界,很多應(yīng)用都需要這樣的能力。

除了推理模型之外,第二個(gè)趨勢(shì)是多模的理解生成一體化,更準(zhǔn)確地說(shuō)是視覺(jué)領(lǐng)域的生成理解一體化。什么叫生成理解一體化?就是理解和生成用一個(gè)模型來(lái)完成。

文本領(lǐng)域已經(jīng)做到了理解生成一體化,但在視覺(jué)領(lǐng)域理解需要理解模型,生成用的是生成模型。為什么一定要做生成理解一體化?因?yàn)樾枰斫饽P蛠?lái)預(yù)測(cè)內(nèi)容,生成需要理解來(lái)控制。

從另一個(gè)角度說(shuō),理解需要生成來(lái)監(jiān)督。就像費(fèi)曼說(shuō),What can I not create I do not understand。如果可以生成的話,那就說(shuō)明真的理解了。

ChatGPT模型之所以產(chǎn)生了跨時(shí)代的理解能力,就是因?yàn)樗胮redict next token這樣生成的任務(wù)來(lái)做監(jiān)督信號(hào),而在視覺(jué)領(lǐng)域并沒(méi)有出現(xiàn)這樣的predict next frame模式。到今天為止,視覺(jué)領(lǐng)域也并沒(méi)有出現(xiàn)大規(guī)模的預(yù)訓(xùn)練來(lái)刻畫(huà)物理世界的規(guī)律。

為了進(jìn)一步說(shuō)明理解生成一體化的這個(gè)重要性,可以先看語(yǔ)言模型的技術(shù)路線發(fā)展,它經(jīng)歷了三個(gè)重大的技術(shù)節(jié)點(diǎn)。首先是20117年推出了Transformer,意義是在于scalable的文本理解生成一體化模型。2020年GPT -3被訓(xùn)練出來(lái)了,它用互聯(lián)網(wǎng)海量的文本數(shù)據(jù)做了預(yù)訓(xùn)練,從此進(jìn)入到了大語(yǔ)言模型時(shí)代。

2022年的InstructGPT,也就是GPT -3.5,解決了指令跟隨的問(wèn)題,從此NLP的任務(wù)實(shí)現(xiàn)了大一統(tǒng),一個(gè)模型搞定了所有NLP的任務(wù)。再往后就是24年底推出了推理模型,可以用長(zhǎng)思維鏈思考處理復(fù)雜問(wèn)題。

下一步是什么?可能是自主學(xué)習(xí)。所以,語(yǔ)言模型的技術(shù)路線已經(jīng)收斂,視覺(jué)模型完全可以按照這個(gè)樣板一步步往前走。但視覺(jué)模型在第一步就被卡住了,現(xiàn)在只能理解生成各自發(fā)展。

要做好視覺(jué)的理解生成一體化,第一步要做做海量的圖片視頻的預(yù)訓(xùn)練,也就是說(shuō)可以 predict next frame,這樣生成出來(lái)的視頻會(huì)比Sora的效果要好很多。再加上指令遵循,那么視覺(jué)任務(wù)就完成了大一統(tǒng),一個(gè)模型搞定所有視覺(jué)任務(wù)。

接下來(lái)做時(shí)空推理,這就會(huì)使得自動(dòng)駕駛和機(jī)器人這樣的應(yīng)用能夠上一個(gè)大臺(tái)階。當(dāng)前自動(dòng)駕駛和機(jī)器人問(wèn)題都是泛化性不足,沒(méi)見(jiàn)過(guò)的東西就不會(huì)做,但人如果沒(méi)有經(jīng)歷的話,人會(huì)腦補(bǔ)或者演繹,或者去嘗試各種action的各種結(jié)果,最后選擇一個(gè)更好的。這個(gè)就需要理解生成一體化,最后加上3D 模型,加上自主學(xué)習(xí)的進(jìn)化能力,我認(rèn)為就是世界模型了,到了這一天也就是AGI來(lái)臨了,所以多模態(tài)是AGI的必經(jīng)之路。

最近在理解生成一體化上,GPT-4o的最新版是一個(gè)很重大的突破,階躍這方面更先進(jìn)的技術(shù)會(huì)在未來(lái)幾個(gè)月發(fā)布。

在應(yīng)用方面,眼下最熱的應(yīng)用概念就是Agent。很多人也會(huì)認(rèn)為2025年會(huì)是Agent 的元年,為什么Agent會(huì)在眼下變得火熱?我想這跟 Agent的爆發(fā)需要的兩個(gè)必要條件有關(guān),一個(gè)是多模態(tài)的能力,一個(gè)是慢思考的能力,這兩個(gè)能力在2024年都取得突破性的進(jìn)展。

基于自主研發(fā)的強(qiáng)大模型矩陣,我們跟合作伙伴一起打造了垂類的Agent以及智能終端的Agent。比如我們跟OPPO合作打造了手機(jī)Agent,跟吉利合作展示了最新的智能座艙。此外,還和具身機(jī)器人公司合作,這塊目前還比較早期,需要大家非常深入密切的合作。

最后,表達(dá)三句話,第一,追求AGI是我們的初心,我們不會(huì)改變,會(huì)堅(jiān)持基礎(chǔ)大模型的研發(fā)。第二,在整個(gè)競(jìng)爭(zhēng)格局里面,階躍差異化的特點(diǎn)就是多模態(tài)能力,不僅能力在行業(yè)里面領(lǐng)先,也始終走在探索的前沿方向,這里面機(jī)會(huì)巨大。

在應(yīng)用層面,階躍也是差異化的道路,就是攜手合作伙伴發(fā)力智能終端的Agent,最終形成從模型到Agent,從云側(cè)到端側(cè)的生態(tài)體系。我們認(rèn)為軟硬結(jié)合才能更好地理解用戶的需求,完成用戶的任務(wù)。




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
與特朗普通話,普京態(tài)度堅(jiān)決:將回應(yīng)烏襲擊俄機(jī)場(chǎng)!俄軍事博主曝“大普羅米修斯”計(jì)劃

與特朗普通話,普京態(tài)度堅(jiān)決:將回應(yīng)烏襲擊俄機(jī)場(chǎng)!俄軍事博主曝“大普羅米修斯”計(jì)劃

紅星新聞
2025-06-05 16:18:09
岳云鵬真聰明,直接貼出他的豪華嘉賓陣容,力證他和小沈陽(yáng)不一樣

岳云鵬真聰明,直接貼出他的豪華嘉賓陣容,力證他和小沈陽(yáng)不一樣

娛圈小愚
2025-06-06 11:39:09
17歲9個(gè)月22天,馬斯坦托諾成為阿根廷最年輕正賽出場(chǎng)球員

17歲9個(gè)月22天,馬斯坦托諾成為阿根廷最年輕正賽出場(chǎng)球員

懂球帝
2025-06-06 11:18:16
瑞典電視臺(tái)連續(xù)20天不間斷直播駝鹿過(guò)河,引900萬(wàn)人圍觀

瑞典電視臺(tái)連續(xù)20天不間斷直播駝鹿過(guò)河,引900萬(wàn)人圍觀

隨波蕩漾的漂流瓶
2025-06-03 18:32:47
大風(fēng)追蹤 | 浙江溫嶺23歲失聯(lián)女孩疑找到,警方稱需DNA鑒定才能確定

大風(fēng)追蹤 | 浙江溫嶺23歲失聯(lián)女孩疑找到,警方稱需DNA鑒定才能確定

大風(fēng)新聞
2025-06-05 15:00:13
33歲香港歌手吞百粒安眠藥自殺

33歲香港歌手吞百粒安眠藥自殺

wuhu派
2025-06-04 08:45:51
被單方面官宣結(jié)婚后,王曉晨不再沉默!俞灝明的臉被“打腫了”!

被單方面官宣結(jié)婚后,王曉晨不再沉默!俞灝明的臉被“打腫了”!

小咪侃娛圈
2025-06-05 11:31:26
男子結(jié)婚,手不離新娘的腰,網(wǎng)友看到新娘懂了:這顏值必須看緊點(diǎn)

男子結(jié)婚,手不離新娘的腰,網(wǎng)友看到新娘懂了:這顏值必須看緊點(diǎn)

辣媒專欄記錄
2025-06-05 11:10:03
編外人員公開(kāi)投訴「同工不同酬」,官方回應(yīng)

編外人員公開(kāi)投訴「同工不同酬」,官方回應(yīng)

醫(yī)眼觀察
2025-06-05 16:24:20
江蘇足球內(nèi)戰(zhàn),最搞笑的25個(gè)段子

江蘇足球內(nèi)戰(zhàn),最搞笑的25個(gè)段子

雷斯林
2025-06-05 11:58:20
山東女網(wǎng)紅襲警后續(xù),囂張跋扈拉不住,正面照曝光,更多黑料被扒

山東女網(wǎng)紅襲警后續(xù),囂張跋扈拉不住,正面照曝光,更多黑料被扒

野山歷史
2025-06-06 10:30:20
為啥大陸停用繁體字推行簡(jiǎn)化字?網(wǎng)友:憂鬱的烏龜,誰(shuí)認(rèn)識(shí)它們?

為啥大陸停用繁體字推行簡(jiǎn)化字?網(wǎng)友:憂鬱的烏龜,誰(shuí)認(rèn)識(shí)它們?

解讀熱點(diǎn)事件
2025-06-06 00:10:03
郭亞雄:生姜加一物,結(jié)節(jié)全消散!打通全身的淤堵,把結(jié)節(jié)掃光

郭亞雄:生姜加一物,結(jié)節(jié)全消散!打通全身的淤堵,把結(jié)節(jié)掃光

蠟筆小小子
2025-06-02 11:39:25
全球首個(gè)滿級(jí)QQ即將誕生,活躍天數(shù)超182年

全球首個(gè)滿級(jí)QQ即將誕生,活躍天數(shù)超182年

魯中晨報(bào)
2025-06-06 07:12:08
馬卡:若奪得歐國(guó)聯(lián)冠軍,亞馬爾將在金球獎(jiǎng)爭(zhēng)奪戰(zhàn)中占據(jù)先機(jī)

馬卡:若奪得歐國(guó)聯(lián)冠軍,亞馬爾將在金球獎(jiǎng)爭(zhēng)奪戰(zhàn)中占據(jù)先機(jī)

懂球帝
2025-06-06 11:28:15
1夜3官宣:國(guó)米切爾西首簽,利物浦豪擲2億鎊,皇馬欲簽中鋒!

1夜3官宣:國(guó)米切爾西首簽,利物浦豪擲2億鎊,皇馬欲簽中鋒!

天光破云來(lái)
2025-06-06 12:22:36
“愿簽任何協(xié)議”!菲律賓外長(zhǎng)在東盟會(huì)議上的驚人表態(tài)

“愿簽任何協(xié)議”!菲律賓外長(zhǎng)在東盟會(huì)議上的驚人表態(tài)

蛙斯基娛樂(lè)中
2025-06-05 16:15:14
零跑汽車 CEO 朱江明:未來(lái)車企一輛中大型SUV賣 5 萬(wàn)元是合理的

零跑汽車 CEO 朱江明:未來(lái)車企一輛中大型SUV賣 5 萬(wàn)元是合理的

IT之家
2025-06-06 08:45:12
蘇超爆火出圈,“城商行一哥”江蘇銀行贏麻了!有儲(chǔ)戶為了門(mén)票定存幾十萬(wàn)

蘇超爆火出圈,“城商行一哥”江蘇銀行贏麻了!有儲(chǔ)戶為了門(mén)票定存幾十萬(wàn)

時(shí)代財(cái)經(jīng)
2025-06-06 08:02:47
藏海傳:直到親侄子黃袍加身,永榮王爺才知,被圈禁已是最好結(jié)局

藏海傳:直到親侄子黃袍加身,永榮王爺才知,被圈禁已是最好結(jié)局

小椰的奶奶
2025-06-06 11:43:43
2025-06-06 13:55:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號(hào)
4416文章數(shù) 9141關(guān)注度
往期回顧 全部

科技要聞

特朗普怒噴馬斯克"瘋了" 特斯拉暴跌14%!

頭條要聞

媒體:史上最弱國(guó)足不配世界杯 對(duì)這一代球員是種解脫

頭條要聞

媒體:史上最弱國(guó)足不配世界杯 對(duì)這一代球員是種解脫

體育要聞

蘇超紅紅火火,國(guó)足繼續(xù)下沉

娛樂(lè)要聞

段奧娟:告別舒適圈,擁抱無(wú)限可能

財(cái)經(jīng)要聞

娃哈哈“體外”迷局待解

汽車要聞

新增兩款專屬車色 奇瑞艾瑞澤8 PRO 2.0T官圖發(fā)布

態(tài)度原創(chuàng)

親子
游戲
教育
手機(jī)
公開(kāi)課

親子要聞

Fido可能會(huì)保護(hù)您的寶寶免受濕疹的侵害

《Switch2歡迎之旅》需購(gòu)買(mǎi)額外配件才能100%完成游戲

教育要聞

2025年貝雷軍拓軍事夏令營(yíng)開(kāi)始招生啦!

手機(jī)要聞

國(guó)產(chǎn)五大品牌頂級(jí)直板旗艦銷量對(duì)比,小米竟然是第一

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 葫芦岛市| 青龙| 黑龙江省| 同江市| 郁南县| 温州市| 滦平县| 永清县| 辽阳市| 舟曲县| 延津县| 潢川县| 图木舒克市| 敦化市| 孟州市| 江安县| 长顺县| 墨玉县| 色达县| 资兴市| 芦溪县| 通化县| 高雄市| 沁源县| 宁强县| 平江县| 芜湖市| 山西省| 吴旗县| 钦州市| 玉山县| 安阳市| 无极县| 师宗县| 长乐市| 鄂温| 温州市| 蒙山县| 克东县| 越西县| 巴彦县|