5月17日,由搜狐主辦的2025搜狐科技年度論壇在北京盛大開幕。多位院士、科學家與產業界人士齊聚一堂,激發智慧的深度碰撞,奔赴科技的星辰大海。
本屆論壇線上線下結合,開啟全天的思想盛宴。在上午的線上直播中,階躍星辰副總裁李璟發表主題演講《迎接視覺領域的GPT-4時刻》,分享了大模型技術和應用層面的思考。
他表示,今年以來大模型廠商密集的模型發布,意味著追求智能的上限仍然是當下最重要的事情。“我們始終認為多模態對AGI的實現非常重要,是實現AGI的必經之路。”
對大模型的下一步發展,李璟表示,階躍星辰主要會在兩個方向發力。一是在預訓練的基礎上加上強化學習,提高模型的推理能力。“強化學習還在早期,還會延續一長段時間。”
第二個趨勢是多模的理解生成一體化。李璟認為,文本領域已經實現生成理解任務的統一,語言模型的技術路線也已收斂,視覺模型完全可以按照類似路線往前走。
“第一步就是做海量的圖片視頻的預訓練,實現predict next frame(預測下一幀),這樣生成出來的視頻會比Sora的效果要好很多;再加上指令遵循,視覺任務就完成了大一統。”
在AI應用方面,階躍星辰看好Agent前景。“追求AGI是我們的初心,我們會堅持基礎大模型的研發。”李璟表示,階躍星辰會堅持進行多模態的探索布局,最終形成從模型到Agent、從云側到端側的生態體系。
以下是演講全文:
各位朋友大家好,我是階躍星辰李璟,非常榮幸能夠有機會參加2025搜狐科技年度論壇,代表階躍分享我們最近在大模型技術研發,還有應用方面的一些思考與實踐。
從2月份以來,國外頭部的幾家基礎大模型廠商你追我趕,密集發布了一系列模型。我們可以清楚地感受到一個趨勢,那就是追求智能的上限仍然是當下最重要的事情,也可以看出出主流的技術脈絡和共性規律。
從宏觀上說,模型的發展是沿著一條智能演進的路線在往前進化。兩年前,階躍成立之初為通往AGI規劃的技術路線圖,包括了三個階段:模擬世界、探索世界和歸納世界。
今天我們到底在什么樣的位置?結合這波密集的發布,眼下的發展呈現出兩個趨勢,第一個是從模仿學習到強化學習,第二個是從多模態融合走向多模態理解生成一體化。
在階躍提出的路線圖里面,模擬世界的主要范式是模仿學習,就是把互聯網上的所有的數據都喂給大模型,通過預測下一個token這樣的任務來學習海量數據中的結構和特征。
當學會表征世界之后,下一步就要培養機器解決問題的能力。對復雜問題的求解,人腦需要系統2的能力,就是慢思考的能力。這也是最近的推理模型,如OpenAI的o1、o3 以及DeepSeek-R1背后所采取到的技術。
智能的下一個境界,我們認為是機器通過自主學習,主動發現人類尚未發現的物理規律。這就有點像蘋果砸在了牛頓的頭上,發現了萬有引力的定律一樣。這樣AI可以在生物、核能、材料、量子等各個領域和科學家一起完成創新,我們把這個階段稱為歸納世界。
去年OpenAI流傳出的AGI的五個level分別Chatbot、Reasoner、Agent、Innovator和 Organization。這五個level和階躍提的三階段的想法基本一致,只是表述有所不同。OpenAI的系列代表模型,基本覆蓋了這個路線圖的各個關鍵節點。
同時,隨著模型能力的不斷增強,模型應用也從早期的Chatbot聊天機器人,到構建智能體Agent來完成復雜的任務,并且進一步從數字世界跨到物理世界,比如和智能終端和設備的結合。應用也是跟著模型能力走的,有什么樣的模型決定了什么樣的應用可以成熟和繁榮。
階躍的發展也基本繞圍繞著這樣的路線圖進行,過去兩年已經建成了 Step系列的通用大模型矩陣。我們的基礎模型可以分成語言模型和多模態模型,多模態又涵蓋圖像、視頻、聲音各個模態,每個模態按功能可以細分為理解模型和生成模型。
所以階躍形成了綜合全面、多模領先的基礎大模型矩陣,我們始終認為多模態對AGI的實現非常重要,是實現AGI的必經之路。
首先,AGI對標的是人類智能。人的智能是多元化的,不僅來自于語言的符號智能,還包括視覺智能、空間智能、運動智能等,這些智能必須通過視覺和其他模態進行學習,任何方面出現短板都有可能延緩AGI的進程。從應用角度來看,無論是垂直領域的應用,還是C端應用,多模態往往也必不可少。
階躍模型下一步的發展,有兩個明顯趨勢。第一個趨勢就是在預訓練的基礎上加上強化學習,激發模型在推理的時候產生長思維鏈,從而極大提高模型的推理能力。推理模型已經從一個趨勢變成一個確定性的范式,階躍預計會在未來兩三個月發布滿血版的推理模型Step-R1。
我們認為強化學習還在早期,還會延續一長段時間,比如推理效率的提高、獎勵函數的進一步泛化、合成數據進行預訓練等等,都是需要解決的熱點問題,階躍也會在這方面持續投入。
除了語言模型之外,階躍還率先把推理能力引到了多模態領域,確切的說是視覺理解領域。引入推理能力和長思維鏈能力之后,視覺模型就可以更加精準的理解物理世界,很多應用都需要這樣的能力。
除了推理模型之外,第二個趨勢是多模的理解生成一體化,更準確地說是視覺領域的生成理解一體化。什么叫生成理解一體化?就是理解和生成用一個模型來完成。
文本領域已經做到了理解生成一體化,但在視覺領域理解需要理解模型,生成用的是生成模型。為什么一定要做生成理解一體化?因為需要理解模型來預測內容,生成需要理解來控制。
從另一個角度說,理解需要生成來監督。就像費曼說,What can I not create I do not understand。如果可以生成的話,那就說明真的理解了。
ChatGPT模型之所以產生了跨時代的理解能力,就是因為它用predict next token這樣生成的任務來做監督信號,而在視覺領域并沒有出現這樣的predict next frame模式。到今天為止,視覺領域也并沒有出現大規模的預訓練來刻畫物理世界的規律。
為了進一步說明理解生成一體化的這個重要性,可以先看語言模型的技術路線發展,它經歷了三個重大的技術節點。首先是20117年推出了Transformer,意義是在于scalable的文本理解生成一體化模型。2020年GPT -3被訓練出來了,它用互聯網海量的文本數據做了預訓練,從此進入到了大語言模型時代。
2022年的InstructGPT,也就是GPT -3.5,解決了指令跟隨的問題,從此NLP的任務實現了大一統,一個模型搞定了所有NLP的任務。再往后就是24年底推出了推理模型,可以用長思維鏈思考處理復雜問題。
下一步是什么?可能是自主學習。所以,語言模型的技術路線已經收斂,視覺模型完全可以按照這個樣板一步步往前走。但視覺模型在第一步就被卡住了,現在只能理解生成各自發展。
要做好視覺的理解生成一體化,第一步要做做海量的圖片視頻的預訓練,也就是說可以 predict next frame,這樣生成出來的視頻會比Sora的效果要好很多。再加上指令遵循,那么視覺任務就完成了大一統,一個模型搞定所有視覺任務。
接下來做時空推理,這就會使得自動駕駛和機器人這樣的應用能夠上一個大臺階。當前自動駕駛和機器人問題都是泛化性不足,沒見過的東西就不會做,但人如果沒有經歷的話,人會腦補或者演繹,或者去嘗試各種action的各種結果,最后選擇一個更好的。這個就需要理解生成一體化,最后加上3D 模型,加上自主學習的進化能力,我認為就是世界模型了,到了這一天也就是AGI來臨了,所以多模態是AGI的必經之路。
最近在理解生成一體化上,GPT-4o的最新版是一個很重大的突破,階躍這方面更先進的技術會在未來幾個月發布。
在應用方面,眼下最熱的應用概念就是Agent。很多人也會認為2025年會是Agent 的元年,為什么Agent會在眼下變得火熱?我想這跟 Agent的爆發需要的兩個必要條件有關,一個是多模態的能力,一個是慢思考的能力,這兩個能力在2024年都取得突破性的進展。
基于自主研發的強大模型矩陣,我們跟合作伙伴一起打造了垂類的Agent以及智能終端的Agent。比如我們跟OPPO合作打造了手機Agent,跟吉利合作展示了最新的智能座艙。此外,還和具身機器人公司合作,這塊目前還比較早期,需要大家非常深入密切的合作。
最后,表達三句話,第一,追求AGI是我們的初心,我們不會改變,會堅持基礎大模型的研發。第二,在整個競爭格局里面,階躍差異化的特點就是多模態能力,不僅能力在行業里面領先,也始終走在探索的前沿方向,這里面機會巨大。
在應用層面,階躍也是差異化的道路,就是攜手合作伙伴發力智能終端的Agent,最終形成從模型到Agent,從云側到端側的生態體系。我們認為軟硬結合才能更好地理解用戶的需求,完成用戶的任務。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.