99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

階躍星辰李璟:多模態是AGI的必經之路,視覺模型可按語言模型路線實現大一統

0
分享至



5月17日,由搜狐主辦的2025搜狐科技年度論壇在北京盛大開幕。多位院士、科學家與產業界人士齊聚一堂,激發智慧的深度碰撞,奔赴科技的星辰大海。

本屆論壇線上線下結合,開啟全天的思想盛宴。在上午的線上直播中,階躍星辰副總裁李璟發表主題演講《迎接視覺領域的GPT-4時刻》,分享了大模型技術和應用層面的思考。

他表示,今年以來大模型廠商密集的模型發布,意味著追求智能的上限仍然是當下最重要的事情。“我們始終認為多模態對AGI的實現非常重要,是實現AGI的必經之路。”

對大模型的下一步發展,李璟表示,階躍星辰主要會在兩個方向發力。一是在預訓練的基礎上加上強化學習,提高模型的推理能力。“強化學習還在早期,還會延續一長段時間。”

第二個趨勢是多模的理解生成一體化。李璟認為,文本領域已經實現生成理解任務的統一,語言模型的技術路線也已收斂,視覺模型完全可以按照類似路線往前走。

“第一步就是做海量的圖片視頻的預訓練,實現predict next frame(預測下一幀),這樣生成出來的視頻會比Sora的效果要好很多;再加上指令遵循,視覺任務就完成了大一統。”

在AI應用方面,階躍星辰看好Agent前景。“追求AGI是我們的初心,我們會堅持基礎大模型的研發。”李璟表示,階躍星辰會堅持進行多模態的探索布局,最終形成從模型到Agent、從云側到端側的生態體系。


以下是演講全文:

各位朋友大家好,我是階躍星辰李璟,非常榮幸能夠有機會參加2025搜狐科技年度論壇,代表階躍分享我們最近在大模型技術研發,還有應用方面的一些思考與實踐。

從2月份以來,國外頭部的幾家基礎大模型廠商你追我趕,密集發布了一系列模型。我們可以清楚地感受到一個趨勢,那就是追求智能的上限仍然是當下最重要的事情,也可以看出出主流的技術脈絡和共性規律。

從宏觀上說,模型的發展是沿著一條智能演進的路線在往前進化。兩年前,階躍成立之初為通往AGI規劃的技術路線圖,包括了三個階段:模擬世界、探索世界和歸納世界。

今天我們到底在什么樣的位置?結合這波密集的發布,眼下的發展呈現出兩個趨勢,第一個是從模仿學習到強化學習,第二個是從多模態融合走向多模態理解生成一體化。

在階躍提出的路線圖里面,模擬世界的主要范式是模仿學習,就是把互聯網上的所有的數據都喂給大模型,通過預測下一個token這樣的任務來學習海量數據中的結構和特征。

當學會表征世界之后,下一步就要培養機器解決問題的能力。對復雜問題的求解,人腦需要系統2的能力,就是慢思考的能力。這也是最近的推理模型,如OpenAI的o1、o3 以及DeepSeek-R1背后所采取到的技術。

智能的下一個境界,我們認為是機器通過自主學習,主動發現人類尚未發現的物理規律。這就有點像蘋果砸在了牛頓的頭上,發現了萬有引力的定律一樣。這樣AI可以在生物、核能、材料、量子等各個領域和科學家一起完成創新,我們把這個階段稱為歸納世界。

去年OpenAI流傳出的AGI的五個level分別Chatbot、Reasoner、Agent、Innovator和 Organization。這五個level和階躍提的三階段的想法基本一致,只是表述有所不同。OpenAI的系列代表模型,基本覆蓋了這個路線圖的各個關鍵節點。

同時,隨著模型能力的不斷增強,模型應用也從早期的Chatbot聊天機器人,到構建智能體Agent來完成復雜的任務,并且進一步從數字世界跨到物理世界,比如和智能終端和設備的結合。應用也是跟著模型能力走的,有什么樣的模型決定了什么樣的應用可以成熟和繁榮。

階躍的發展也基本繞圍繞著這樣的路線圖進行,過去兩年已經建成了 Step系列的通用大模型矩陣。我們的基礎模型可以分成語言模型和多模態模型,多模態又涵蓋圖像、視頻、聲音各個模態,每個模態按功能可以細分為理解模型和生成模型。

所以階躍形成了綜合全面、多模領先的基礎大模型矩陣,我們始終認為多模態對AGI的實現非常重要,是實現AGI的必經之路。

首先,AGI對標的是人類智能。人的智能是多元化的,不僅來自于語言的符號智能,還包括視覺智能、空間智能、運動智能等,這些智能必須通過視覺和其他模態進行學習,任何方面出現短板都有可能延緩AGI的進程。從應用角度來看,無論是垂直領域的應用,還是C端應用,多模態往往也必不可少。

階躍模型下一步的發展,有兩個明顯趨勢。第一個趨勢就是在預訓練的基礎上加上強化學習,激發模型在推理的時候產生長思維鏈,從而極大提高模型的推理能力。推理模型已經從一個趨勢變成一個確定性的范式,階躍預計會在未來兩三個月發布滿血版的推理模型Step-R1。

我們認為強化學習還在早期,還會延續一長段時間,比如推理效率的提高、獎勵函數的進一步泛化、合成數據進行預訓練等等,都是需要解決的熱點問題,階躍也會在這方面持續投入。

除了語言模型之外,階躍還率先把推理能力引到了多模態領域,確切的說是視覺理解領域。引入推理能力和長思維鏈能力之后,視覺模型就可以更加精準的理解物理世界,很多應用都需要這樣的能力。

除了推理模型之外,第二個趨勢是多模的理解生成一體化,更準確地說是視覺領域的生成理解一體化。什么叫生成理解一體化?就是理解和生成用一個模型來完成。

文本領域已經做到了理解生成一體化,但在視覺領域理解需要理解模型,生成用的是生成模型。為什么一定要做生成理解一體化?因為需要理解模型來預測內容,生成需要理解來控制。

從另一個角度說,理解需要生成來監督。就像費曼說,What can I not create I do not understand。如果可以生成的話,那就說明真的理解了。

ChatGPT模型之所以產生了跨時代的理解能力,就是因為它用predict next token這樣生成的任務來做監督信號,而在視覺領域并沒有出現這樣的predict next frame模式。到今天為止,視覺領域也并沒有出現大規模的預訓練來刻畫物理世界的規律。

為了進一步說明理解生成一體化的這個重要性,可以先看語言模型的技術路線發展,它經歷了三個重大的技術節點。首先是20117年推出了Transformer,意義是在于scalable的文本理解生成一體化模型。2020年GPT -3被訓練出來了,它用互聯網海量的文本數據做了預訓練,從此進入到了大語言模型時代。

2022年的InstructGPT,也就是GPT -3.5,解決了指令跟隨的問題,從此NLP的任務實現了大一統,一個模型搞定了所有NLP的任務。再往后就是24年底推出了推理模型,可以用長思維鏈思考處理復雜問題。

下一步是什么?可能是自主學習。所以,語言模型的技術路線已經收斂,視覺模型完全可以按照這個樣板一步步往前走。但視覺模型在第一步就被卡住了,現在只能理解生成各自發展。

要做好視覺的理解生成一體化,第一步要做做海量的圖片視頻的預訓練,也就是說可以 predict next frame,這樣生成出來的視頻會比Sora的效果要好很多。再加上指令遵循,那么視覺任務就完成了大一統,一個模型搞定所有視覺任務。

接下來做時空推理,這就會使得自動駕駛和機器人這樣的應用能夠上一個大臺階。前自動駕駛和機器人問題都是泛化性不足,沒見過的東西就不會做,但人如果沒有經歷的話,人會腦補或者演繹,或者去嘗試各種action的各種結果,最后選擇一個更好的。這個就需要理解生成一體化,最后加上3D 模型,加上自主學習的進化能力,我認為就是世界模型了,到了這一天也就是AGI來臨了,所以多模態是AGI的必經之路。

最近在理解生成一體化上,GPT-4o的最新版是一個很重大的突破,階躍這方面更先進的技術會在未來幾個月發布。

在應用方面,眼下最熱的應用概念就是Agent。很多人也會認為2025年會是Agent 的元年,為什么Agent會在眼下變得火熱?我想這跟 Agent的爆發需要的兩個必要條件有關,一個是多模態的能力,一個是慢思考的能力,這兩個能力在2024年都取得突破性的進展。

基于自主研發的強大模型矩陣,我們跟合作伙伴一起打造了垂類的Agent以及智能終端的Agent。比如我們跟OPPO合作打造了手機Agent,跟吉利合作展示了最新的智能座艙。此外,還和具身機器人公司合作,這塊目前還比較早期,需要大家非常深入密切的合作。

最后,表達三句話,第一,追求AGI是我們的初心,我們不會改變,會堅持基礎大模型的研發。第二,在整個競爭格局里面,階躍差異化的特點就是多模態能力,不僅能力在行業里面領先,也始終走在探索的前沿方向,這里面機會巨大。

在應用層面,階躍也是差異化的道路,就是攜手合作伙伴發力智能終端的Agent,最終形成從模型到Agent,從云側到端側的生態體系。我們認為軟硬結合才能更好地理解用戶的需求,完成用戶的任務。




特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國可能在等,把三大主要問題解決了,再徹底解決臺灣問題

中國可能在等,把三大主要問題解決了,再徹底解決臺灣問題

阿校談史
2025-07-24 00:32:09
難嗎?中國人在沙漠里放了10萬頭黑豬,就解決了世界性治沙難題

難嗎?中國人在沙漠里放了10萬頭黑豬,就解決了世界性治沙難題

5樓的男人
2025-07-22 18:00:03
太丟人了,北京一大爺參加酒席,隨禮200,竟連喝帶拿6瓶五糧液

太丟人了,北京一大爺參加酒席,隨禮200,竟連喝帶拿6瓶五糧液

科學發掘
2025-07-26 13:46:26
這才是真實的宗馥莉:買頂級珠寶不眨眼,玩超跑,工作中平易近人

這才是真實的宗馥莉:買頂級珠寶不眨眼,玩超跑,工作中平易近人

鋭娛之樂
2025-07-26 11:20:46
“窗簾4不掛,掛了快換掉”,這不是迷信,而是換3次的經驗,很多家庭掛錯了

“窗簾4不掛,掛了快換掉”,這不是迷信,而是換3次的經驗,很多家庭掛錯了

裝小宅
2025-07-24 12:16:35
汪蘇瀧收回張碧晨《年輪》版權后續:網友扒出更多黑料,得不償失

汪蘇瀧收回張碧晨《年輪》版權后續:網友扒出更多黑料,得不償失

小徐講八卦
2025-07-26 07:18:20
迪奧這天:鄧為好油膩,周也驚艷,林允贏麻了,劉憲華咋腫成這?

迪奧這天:鄧為好油膩,周也驚艷,林允贏麻了,劉憲華咋腫成這?

胡一舸北游
2025-07-26 14:10:10
上海面館48元茅臺爆火后,顧客被趕走,店內被霸占,老板被逼下架

上海面館48元茅臺爆火后,顧客被趕走,店內被霸占,老板被逼下架

興史興談
2025-07-26 16:56:56
終于明白為啥死囚被執行時比雞還順從!網友的回復讓我大開眼界!

終于明白為啥死囚被執行時比雞還順從!網友的回復讓我大開眼界!

特約前排觀眾
2025-07-16 05:34:34
大同開往內蒙一動車疑因車頭故障停留荒野4小時,乘客稱食物很快售罄,12306回應

大同開往內蒙一動車疑因車頭故障停留荒野4小時,乘客稱食物很快售罄,12306回應

瀟湘晨報
2025-07-26 19:48:07
王受文已任全國工商聯專職副主席(正部長級)

王受文已任全國工商聯專職副主席(正部長級)

澎湃新聞
2025-07-26 20:00:28
歐文:哈登換西蒙斯是完全不公平交易 哈登還去了同分區球隊

歐文:哈登換西蒙斯是完全不公平交易 哈登還去了同分區球隊

直播吧
2025-07-26 14:00:03
網友天津偶遇譚詠麟,75歲穿花襯衫精神頭十足,健步如飛狀態超棒

網友天津偶遇譚詠麟,75歲穿花襯衫精神頭十足,健步如飛狀態超棒

鄭丁嘉話
2025-07-26 11:47:09
甜馨手撕親爹風波升級!李小璐被扒個底朝天,和賈乃亮對比鮮明

甜馨手撕親爹風波升級!李小璐被扒個底朝天,和賈乃亮對比鮮明

置身事內
2025-07-26 07:30:05
香港吃飯很貴?真實香港情況讓你大吃一驚: 銅鑼灣一天消費多少?

香港吃飯很貴?真實香港情況讓你大吃一驚: 銅鑼灣一天消費多少?

朗威談星座
2025-07-16 08:33:49
還是沒有熬過楊振寧!陪伴21年后,冷凍9顆卵子的翁帆痛苦嗎?

還是沒有熬過楊振寧!陪伴21年后,冷凍9顆卵子的翁帆痛苦嗎?

明月聊史
2025-07-17 15:29:09
山東移動董事長調整,宣布級別很高!

山東移動董事長調整,宣布級別很高!

環球通信
2025-07-26 10:27:27
網友在華潤精品店買到過期9天米糕,稱已反映至華潤萬家總部

網友在華潤精品店買到過期9天米糕,稱已反映至華潤萬家總部

21世紀經濟報道
2025-07-26 18:13:48
油價大跌超0.51元/升后,7月29日油價再調整,油價下跌倒計時!

油價大跌超0.51元/升后,7月29日油價再調整,油價下跌倒計時!

油價早知道
2025-07-26 01:08:14
女子為減肥連續曬背9天,高燒40℃確診腎衰竭!醫生:曬背沒有減肥作用

女子為減肥連續曬背9天,高燒40℃確診腎衰竭!醫生:曬背沒有減肥作用

19樓
2025-07-24 15:57:07
2025-07-26 23:24:49
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4460文章數 9145關注度
往期回顧 全部

科技要聞

AI教父辛頓現身上海:人類如何不被AI殺掉

頭條要聞

男孩被多人掌摑62次踹48次 霸凌者:我沒16歲歡迎報警

頭條要聞

男孩被多人掌摑62次踹48次 霸凌者:我沒16歲歡迎報警

體育要聞

楊瀚森效力NBA期間 青島男籃將暫存球隊15號球衣

娛樂要聞

董璇首談保釋前夫細節!高云翔突然不回消息

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

"得房率"超90% 全新嵐圖知音空間信息曝光

態度原創

本地
藝術
旅游
公開課
軍事航空

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

泰軍方向26國發函:柬埔寨率先開火

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰县| 乐清市| 荆门市| 台山市| 高碑店市| 延庆县| 合川市| 阳城县| 许昌县| 镇原县| 沛县| 无为县| 天全县| 吉隆县| 六盘水市| 呼和浩特市| 兴山县| 丁青县| 昌吉市| 门头沟区| 新竹县| 共和县| 板桥市| 隆子县| 安顺市| 平昌县| 福安市| 阿鲁科尔沁旗| 青州市| 三门县| 调兵山市| 牙克石市| 房产| 宝丰县| 靖州| 大宁县| 斗六市| 康马县| 芜湖县| 育儿| 荆州市|