網易首頁 > 網易號 > 正文申請入駐

階躍星辰李璟：多模態是AGI的必經之路，視覺模型可按語言模型路線實現大一統

2025-05-23 15:56:54　來源: 搜狐科技

北京舉報

分享至

5月17日，由搜狐主辦的2025搜狐科技年度論壇在北京盛大開幕。多位院士、科學家與產業界人士齊聚一堂，激發智慧的深度碰撞，奔赴科技的星辰大海。

本屆論壇線上線下結合，開啟全天的思想盛宴。在上午的線上直播中，階躍星辰副總裁李璟發表主題演講《迎接視覺領域的GPT-4時刻》，分享了大模型技術和應用層面的思考。

他表示，今年以來大模型廠商密集的模型發布，意味著追求智能的上限仍然是當下最重要的事情。“我們始終認為多模態對AGI的實現非常重要，是實現AGI的必經之路。”

對大模型的下一步發展，李璟表示，階躍星辰主要會在兩個方向發力。一是在預訓練的基礎上加上強化學習，提高模型的推理能力。“強化學習還在早期，還會延續一長段時間。”

第二個趨勢是多模的理解生成一體化。李璟認為，文本領域已經實現生成理解任務的統一，語言模型的技術路線也已收斂，視覺模型完全可以按照類似路線往前走。

“第一步就是做海量的圖片視頻的預訓練，實現predict next frame（預測下一幀），這樣生成出來的視頻會比Sora的效果要好很多；再加上指令遵循，視覺任務就完成了大一統。”

在AI應用方面，階躍星辰看好Agent前景。“追求AGI是我們的初心，我們會堅持基礎大模型的研發。”李璟表示，階躍星辰會堅持進行多模態的探索布局，最終形成從模型到Agent、從云側到端側的生態體系。

以下是演講全文：

各位朋友大家好，我是階躍星辰李璟，非常榮幸能夠有機會參加2025搜狐科技年度論壇，代表階躍分享我們最近在大模型技術研發，還有應用方面的一些思考與實踐。

從2月份以來，國外頭部的幾家基礎大模型廠商你追我趕，密集發布了一系列模型。我們可以清楚地感受到一個趨勢，那就是追求智能的上限仍然是當下最重要的事情，也可以看出出主流的技術脈絡和共性規律。

從宏觀上說，模型的發展是沿著一條智能演進的路線在往前進化。兩年前，階躍成立之初為通往AGI規劃的技術路線圖，包括了三個階段：模擬世界、探索世界和歸納世界。

今天我們到底在什么樣的位置？結合這波密集的發布，眼下的發展呈現出兩個趨勢，第一個是從模仿學習到強化學習，第二個是從多模態融合走向多模態理解生成一體化。

在階躍提出的路線圖里面，模擬世界的主要范式是模仿學習，就是把互聯網上的所有的數據都喂給大模型，通過預測下一個token這樣的任務來學習海量數據中的結構和特征。

當學會表征世界之后，下一步就要培養機器解決問題的能力。對復雜問題的求解，人腦需要系統2的能力，就是慢思考的能力。這也是最近的推理模型，如OpenAI的o1、o3 以及DeepSeek-R1背后所采取到的技術。

智能的下一個境界，我們認為是機器通過自主學習，主動發現人類尚未發現的物理規律。這就有點像蘋果砸在了牛頓的頭上，發現了萬有引力的定律一樣。這樣AI可以在生物、核能、材料、量子等各個領域和科學家一起完成創新，我們把這個階段稱為歸納世界。

去年OpenAI流傳出的AGI的五個level分別Chatbot、Reasoner、Agent、Innovator和 Organization。這五個level和階躍提的三階段的想法基本一致，只是表述有所不同。OpenAI的系列代表模型，基本覆蓋了這個路線圖的各個關鍵節點。

同時，隨著模型能力的不斷增強，模型應用也從早期的Chatbot聊天機器人，到構建智能體Agent來完成復雜的任務，并且進一步從數字世界跨到物理世界，比如和智能終端和設備的結合。應用也是跟著模型能力走的，有什么樣的模型決定了什么樣的應用可以成熟和繁榮。

階躍的發展也基本繞圍繞著這樣的路線圖進行，過去兩年已經建成了 Step系列的通用大模型矩陣。我們的基礎模型可以分成語言模型和多模態模型，多模態又涵蓋圖像、視頻、聲音各個模態，每個模態按功能可以細分為理解模型和生成模型。

所以階躍形成了綜合全面、多模領先的基礎大模型矩陣，我們始終認為多模態對AGI的實現非常重要，是實現AGI的必經之路。

首先，AGI對標的是人類智能。人的智能是多元化的，不僅來自于語言的符號智能，還包括視覺智能、空間智能、運動智能等，這些智能必須通過視覺和其他模態進行學習，任何方面出現短板都有可能延緩AGI的進程。從應用角度來看，無論是垂直領域的應用，還是C端應用，多模態往往也必不可少。

階躍模型下一步的發展，有兩個明顯趨勢。第一個趨勢就是在預訓練的基礎上加上強化學習，激發模型在推理的時候產生長思維鏈，從而極大提高模型的推理能力。推理模型已經從一個趨勢變成一個確定性的范式，階躍預計會在未來兩三個月發布滿血版的推理模型Step-R1。

我們認為強化學習還在早期，還會延續一長段時間，比如推理效率的提高、獎勵函數的進一步泛化、合成數據進行預訓練等等，都是需要解決的熱點問題，階躍也會在這方面持續投入。

除了語言模型之外，階躍還率先把推理能力引到了多模態領域，確切的說是視覺理解領域。引入推理能力和長思維鏈能力之后，視覺模型就可以更加精準的理解物理世界，很多應用都需要這樣的能力。

除了推理模型之外，第二個趨勢是多模的理解生成一體化，更準確地說是視覺領域的生成理解一體化。什么叫生成理解一體化？就是理解和生成用一個模型來完成。

文本領域已經做到了理解生成一體化，但在視覺領域理解需要理解模型，生成用的是生成模型。為什么一定要做生成理解一體化？因為需要理解模型來預測內容，生成需要理解來控制。

從另一個角度說，理解需要生成來監督。就像費曼說，What can I not create I do not understand。如果可以生成的話，那就說明真的理解了。

ChatGPT模型之所以產生了跨時代的理解能力，就是因為它用predict next token這樣生成的任務來做監督信號，而在視覺領域并沒有出現這樣的predict next frame模式。到今天為止，視覺領域也并沒有出現大規模的預訓練來刻畫物理世界的規律。

為了進一步說明理解生成一體化的這個重要性，可以先看語言模型的技術路線發展，它經歷了三個重大的技術節點。首先是20117年推出了Transformer，意義是在于scalable的文本理解生成一體化模型。2020年GPT -3被訓練出來了，它用互聯網海量的文本數據做了預訓練，從此進入到了大語言模型時代。

2022年的InstructGPT，也就是GPT -3.5，解決了指令跟隨的問題，從此NLP的任務實現了大一統，一個模型搞定了所有NLP的任務。再往后就是24年底推出了推理模型，可以用長思維鏈思考處理復雜問題。

下一步是什么？可能是自主學習。所以，語言模型的技術路線已經收斂，視覺模型完全可以按照這個樣板一步步往前走。但視覺模型在第一步就被卡住了，現在只能理解生成各自發展。

要做好視覺的理解生成一體化，第一步要做做海量的圖片視頻的預訓練，也就是說可以 predict next frame，這樣生成出來的視頻會比Sora的效果要好很多。再加上指令遵循，那么視覺任務就完成了大一統，一個模型搞定所有視覺任務。

接下來做時空推理，這就會使得自動駕駛和機器人這樣的應用能夠上一個大臺階。當前自動駕駛和機器人問題都是泛化性不足，沒見過的東西就不會做，但人如果沒有經歷的話，人會腦補或者演繹，或者去嘗試各種action的各種結果，最后選擇一個更好的。這個就需要理解生成一體化，最后加上3D 模型，加上自主學習的進化能力，我認為就是世界模型了，到了這一天也就是AGI來臨了，所以多模態是AGI的必經之路。

最近在理解生成一體化上，GPT-4o的最新版是一個很重大的突破，階躍這方面更先進的技術會在未來幾個月發布。

在應用方面，眼下最熱的應用概念就是Agent。很多人也會認為2025年會是Agent 的元年，為什么Agent會在眼下變得火熱？我想這跟 Agent的爆發需要的兩個必要條件有關，一個是多模態的能力，一個是慢思考的能力，這兩個能力在2024年都取得突破性的進展。

基于自主研發的強大模型矩陣，我們跟合作伙伴一起打造了垂類的Agent以及智能終端的Agent。比如我們跟OPPO合作打造了手機Agent，跟吉利合作展示了最新的智能座艙。此外，還和具身機器人公司合作，這塊目前還比較早期，需要大家非常深入密切的合作。

最后，表達三句話，第一，追求AGI是我們的初心，我們不會改變，會堅持基礎大模型的研發。第二，在整個競爭格局里面，階躍差異化的特點就是多模態能力，不僅能力在行業里面領先，也始終走在探索的前沿方向，這里面機會巨大。

在應用層面，階躍也是差異化的道路，就是攜手合作伙伴發力智能終端的Agent，最終形成從模型到Agent，從云側到端側的生態體系。我們認為軟硬結合才能更好地理解用戶的需求，完成用戶的任務。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.