出品|網易科技《AGI對話》欄目
作者|丁廣勝
大模型進化路線持續分野,階躍星辰追求AGI的決心反而更加堅定。
成立于2023年4月的階躍星辰剛剛過完兩歲生日,模型發布頻率和產業落地探索正在前所未有地加速。
階躍星辰累計發布了22款自研基座模型,覆蓋文字、語音、圖像、視頻、音樂、推理等全系列。其中,16款是多模態模型,占比七成。目前仍然保持“月更”狀態。
階躍星辰創始人、CEO姜大昕說,追求智能的上限仍然是當下最重要的一件事。
姜大昕的目標是堅決探索通往AGI,且多模態是實現AGI的必由路徑。他把模型演進路線圖劃分為三個階段,即模擬世界—探索世界—歸納世界。
首先,模擬世界的訓練范式是模仿學習,核心是學習海量互聯網數據;其次,探索世界是追求“系統二”的能力,實現慢思考;其三,智能的盡頭是歸納世界,機器能夠自主學習、主動發現人類尚未發現的物理規律。
姜大昕還特別強調從多模態融合走向多模態理解生成一體化,因為“在多模態領域任何一個方向出現短板,都會延緩實現 AGI 的進程。”
在國內大模型公司里,像這樣重視模態全覆蓋,并且堅持原生多模理念的公司并不多。這被視為階躍星辰的獨特優勢。
“我們需要 AI 能聽、能看、能說,這樣它才能更好地理解用戶所處的環境,并且和用戶進行更為自然的交流。目前的大模型公司有能力去全面自研預訓練模型,并構成模型矩陣的,即使是大公司也不多,更不用說是初創公司了,這是階躍星辰的一個特色,也是我們的優勢。”
多模態模型的兩大趨勢
強調多模型理解生成的階躍星辰,是這么想也是這么做的,不斷探索模型能力的同時加速落地驗證。
第一是預訓練加上強化學習,激發模型推理的時候產生長思維鏈,極大地提高模型的推理能力。
姜大昕說,推理模型已經從趨勢變成了范式。
階躍星辰在今年1月份發布了一款推理模型 Step R-Mini,“它的速度很快,推理能力挺強,超出了當時的 o1的 preview 的版本,我們預計在未來的三個月內發布滿血版的 Step-R1。”
第二個趨勢是多模態理解生成一體化,也就是如何把推理引入到多模態領域。
姜大昕舉一個例子,有一張足球比賽現場的圖片,一般視覺理解是訓練時看到過類似的圖,然后給出結果。而加了推理的視覺模型可以根據圖片中的廣告牌、球衣顏色等更多特征信息給出更準確的答案。
這樣的探索已經延伸到短劇領域。“現在短劇最卡脖子、最瓶頸的地方不是短劇生產,而是短劇審核。因為全部需要人工審核,效率非常低,用了階躍星辰的模型后審核效率從原來的90天可以變成一個星期。”
姜大昕還進一步解釋了“多模理解生成一體化”路線的正確性:
為什么要做理解和生成?因為生成的內容需要理解來控制,為了保證生成的內容有意義,即生成需要理解來控制。反過來,理解需要生成來監督。但他也表示,從整個行業看,這個路線還有卡點和挑戰。
“到現在為止計算機視覺做了幾十年,不幸的是這個問題(視覺理解生成一體化)仍然沒有被解決。”姜大昕表示,理解生成一體化是整個計算機視覺需要突破的一個堡壘。
AGI的實現路徑清晰了
何時能實現世界模型,姜大昕眼中的 AGI 就實現了,他近期感受最深的一點是,路線越來越清晰了。
他回顧技術發展路線說,2017年transformer 架構對業界最大的意義在于它是一個 scalable(可擴展) 的文本的理解生成一體化的架構。
在那之前, LSTM(長短期記憶網絡)或者RNN循環神經網絡或者其他模型都不能 scalable。正因為有了這個 scalable 的架構以后,到了2020年 GPT-3來了,GPT-3的意義在于我們第一次把海量的互聯網數據放到了這個 scalable 的架構上,可以讓它用一個模型去處理所有 NLP 的任務。但那個時候它需要一些例子,然后它用一個模型來告訴你要怎么做。
再往前一步,到了2022年 ChatGPT來了,就是在預訓練模型的基礎上再加上指令跟隨,這是 GPT-3.5做的事情,到了 GPT-4的時候這個能力進一步增強,所以我們經常談到 "GPT-4時刻",指的就是在這個模態上,模型真正能達到跟人的智能差不多的水平。
到目前為止,語言模型的技術路線基本上收斂了,沒有出現別的分支,不管是 OpenAI 也好、Google 也好、Anthropic 也好,或者國內任何的公司,語言模型都在朝著這條路往下走。
姜大昕相信,視覺也是可以 follow 同樣的路線。
“如果我能夠用海量的視頻去做預訓練,它能 predict next frame (預測下一幀)以后,然后類似語言模型一樣加各種指令,讓它去預測,再往后做推理,如果能做到時空推理、加上3D 、再加上自然語言學習,那就是世界模型了。”
而世界模型,就是姜大昕眼中AGI的模樣。而挑戰正在于此,這件事的原點就是徹底地解決理解生成一體化。
姜大昕斷言,這個問題一旦突破以后,今后的道路會非常順暢,視頻就會和文本一起發展到世界模型。直到抵達AGI。
智能體將從數字走向物理
2025年是Agent 元年,姜大昕總結了兩個之所以爆發的條件,一個是多模態的能力,一個是慢思考的能力,這兩個能力恰好在2024年的時候取得了突破性進展。
階躍星辰的發力方向是智能終端 Agent,并在此投入重兵。
姜大昕認為,終端是用戶感知和體驗的延伸,而且它能幫你完成任務。這是階躍星辰選擇這個賽道的原因。
目前傾注精力的有四個方向,一個是與OPPO等廠商合作的AI手機賽道。一個是和吉利汽車、千里科技合作的智能汽車賽道。一個是和TCL等廠商合作的IoT設備領域。一個是具身智能領域。
階躍星辰正在具身智能領域投注精力,與智元機器人和原力靈機機器人合作,其中階躍的多模態大模型是機器人的大腦,以感知、理解這個世界。未來目標是實現視覺的泛化、機器人的泛化。
在家庭場景,姜大昕還描繪了這樣一幅場景,在未來,大家不需要了解微波爐的功能,不需要去研究每個功能怎么使用,把雞蛋放進去,給出指令即可。也不需要知道如何設定,這就是智能終端。家庭場景的想象力大有可為。
姜大昕用三點來概括階躍星辰的發展藍圖。
第一,堅持基礎大模型研發,追求 AGI 不會改變。第二,階躍差異化的特點就是多模態的能力。第三,在智能終端 Agent 方向上發力,最終形成從模型到 Agent,從云側到端側的生態體系。
在Agent 元年,姜大昕希望有所堅持,有所選擇。擺在他們眼前的任務,是讓智能體從數字世界走向物理世界。