出品|虎嗅商業(yè)消費組
作者|苗正卿
題圖|虎嗅拍攝
5月8日,在海淀大恒科技中心的階躍星辰北京辦公地,階躍星辰創(chuàng)始人、CEO姜大昕身著深色西服、藍(lán)色襯衫出現(xiàn)在階躍星辰北京辦公地的會議室里。他保持了一貫的風(fēng)格,如二十一年前在新加坡南洋理工教書時,像老師一樣在屏幕前平靜地講述自己對于多模態(tài)模型行業(yè)的判斷。這里距離姜大昕上一個東家微軟的中國辦公地微軟大廈僅有504米,在2023年創(chuàng)立階躍星辰前,姜大昕是微軟全球副總裁。
“多模態(tài)模型領(lǐng)域目前還沒有出現(xiàn)GPT-4時刻。卡點是整個行業(yè)缺少多模態(tài)領(lǐng)域的理解生成一體化架構(gòu)。有了這個架構(gòu),才能基于此通過海量的圖片視頻去做預(yù)訓(xùn)練+指令跟隨,最終演變?yōu)槭澜缒P汀!苯箨空f。
“理解生成一體化架構(gòu)”不只是姜大昕的技術(shù)判斷,也正在影響這家公司的走向。
虎嗅獨家獲悉,近期階躍星辰內(nèi)部,進(jìn)行了算法小組內(nèi)的微調(diào):原本階躍星辰內(nèi)部團(tuán)隊分為生成小組和理解小組,而這兩個小組已經(jīng)整合為新的“生成理解”團(tuán)隊。
姜大昕向虎嗅表示,這一調(diào)整,確實是基于“理解生成一體化架構(gòu)至關(guān)重要”這個判斷。
虎嗅獲悉,目前階躍星辰的運轉(zhuǎn)以三個男人為核心:
姜大昕階躍星辰創(chuàng)始人、CEO 負(fù)責(zé)公司整體戰(zhàn)略、技術(shù)研發(fā)
張祥雨階躍星辰首席科學(xué)家負(fù)責(zé)公司技術(shù)研發(fā)
朱亦博 階躍星辰的系統(tǒng)負(fù)責(zé)人,全面負(fù)責(zé) AI Infra 建設(shè)與AI框架優(yōu)化
此外,階躍星辰通過開源和ToB合作,不斷豐富自己的生態(tài)矩陣。虎嗅獲悉,階躍星辰內(nèi)部開放平臺部門主要面向外部開發(fā)者,提供階躍基礎(chǔ)模型的API接口;生態(tài)部,則主要負(fù)責(zé)與品牌客戶的戰(zhàn)略合作。這兩個重要的部門由階躍星辰VP李璟負(fù)責(zé)。數(shù)據(jù)顯示,2024年下半年階躍星辰多模態(tài) API 的調(diào)用量增長了超 45 倍。
目前階躍星辰員工主要有400余人,其中80%為技術(shù)研發(fā)人員。這些人分布在上海總部和北京辦公室。每周,所有技術(shù)相關(guān)員工都會參加固定時間的協(xié)同會,以拉齊共識。在公司內(nèi)部,還有見聞分享群,所有員工可以隨時分享自己對論文和產(chǎn)品的看法。值得注意的是,在這個群里,還接入了階躍星辰的Agent,比如有員工把OpenAI最新的論文發(fā)到群里時,這些Agent會自動梳理出要點、完成翻譯或者給出簡短評語。
和部分基礎(chǔ)模型公司風(fēng)格略有不同,階躍星辰內(nèi)部氛圍更為扁平開放。階躍星辰的一線員工可以隨時與姜大昕私信交流。有內(nèi)部人士告訴虎嗅,姜大昕能記住公司內(nèi)一線員工的名字,也很少“PUSH”員工,性格比較開放。一個細(xì)節(jié)是,多個階躍星辰員工桌面擺著手辦、二次元公仔,在午休時刻有男員工快樂地吃著甜品看B站番劇。據(jù)悉,階躍星辰內(nèi)部還有多個社團(tuán),比如羽毛球社、飛盤社等。
截至2025年5月,階躍星辰主要通過通過面向品牌客戶的ToB服務(wù)和面向開發(fā)者的API接口業(yè)務(wù)獲得收入。但由于在創(chuàng)立后階躍星辰并未像其他頭部模型公司一樣采取“投流”策略,其主要成本是人力和堆卡。2024年12月,階躍星辰宣布完成了B輪數(shù)億美元融資。和一些“AI六小虎”不同,階躍星辰一直在做具備多模態(tài)能力的基礎(chǔ)模型,它也是截至目前“六小虎”中少數(shù)尚未放棄預(yù)訓(xùn)練的公司之一。
姜大昕坦承,基礎(chǔ)模型的競爭是激烈的。在過去半年里僅僅OpenAI、Google、Meta、Grok、Anthropic五家就發(fā)布了不少于8款新品;而國內(nèi)月之暗面、MiniMax等廠商也在頻頻發(fā)力。“競爭非常激烈 ,追求智能的上限仍是當(dāng)下最重要的事情。”姜大昕說。
5月8日,姜大昕分享了對多模態(tài)行業(yè)的最新理解以及對階躍星辰未來的規(guī)劃。
-----------以下為姜大昕接受訪談的內(nèi)容----------
大家也能感受到,大模型這個領(lǐng)域發(fā)展得非常快。 2 月份以來國外的頭部幾家做基礎(chǔ)大模型的公司非常密集地發(fā)布了一堆的模型,所以有媒體說他們是“貼臉發(fā)布”,也能感受到競爭是非常激烈的。
通過這些發(fā)布我們其實可以感受到一個趨勢:“追求智能的上限”——我們認(rèn)為這仍然是當(dāng)下最重要的一件事。如果透過這些眼花繚亂的發(fā)布我們再多觀察一下發(fā)布的模型的特征也可以整理出一個主流的技術(shù)脈絡(luò)和共性的規(guī)律。
從宏觀上來講,我們看出模型的發(fā)展是沿著這樣一條智能演進(jìn)的路線往前進(jìn)化的:模擬世界、探索世界、歸納世界。
我們也可以感受到眼下的發(fā)展,主要呈現(xiàn)出兩個趨勢。第一個趨勢是,從模仿學(xué)習(xí)到強化學(xué)習(xí),其中一個關(guān)鍵點是從多模態(tài)融合走向了多模態(tài)理解生成一體化。
在做模擬世界這個階段,主要訓(xùn)練的范式叫模仿訓(xùn)練,就是我們把互聯(lián)網(wǎng)上所有海量的數(shù)據(jù)都喂給大模型,通過一個任務(wù)叫 predict next token 讓這個模型從海量數(shù)據(jù)當(dāng)中去它的結(jié)構(gòu)和它的特征。在這個階段學(xué)習(xí)的主要的目的是各種模態(tài)的表征,我們看到有語言、聲音、圖像、視頻一直到復(fù)雜的 4D 時空的物理世界,里面的核心問題是我們?nèi)绾文苡蒙疃鹊纳窠?jīng)網(wǎng)絡(luò)去統(tǒng)一表達(dá)這些從簡單到復(fù)雜的各種模態(tài)。
這是第一階段,我們學(xué)會了表征世界,下一步就是讓培養(yǎng)機器解決復(fù)雜問題的能力,比如說讓它解一個數(shù)學(xué)題,讓它寫競賽題的代碼,這種問題需要長思維鏈,需要一個比較長的思考的過程,對于復(fù)雜問題求解,人腦需要的一種慢思考的能力。我們每個人在解一道復(fù)雜的數(shù)學(xué)題的時候經(jīng)常不是一口報答案,而是會把這個題分解成若干個步驟。如果發(fā)現(xiàn)一開始的思路不正確的話,還會嘗試其他的解決方法。怎么讓機器學(xué)習(xí)慢思考的能力呢?采用的方法就是強化學(xué)習(xí),強化學(xué)習(xí)其實大家也不陌生,2016 年的 AlphaGo 采用的就是強化學(xué)習(xí)的方法,最近的在大語言模型的領(lǐng)域出現(xiàn)的一些推理模型,比如說 OpenAI 的 O1、O3,以及 DeepSeek 的 R1 背后就是強化學(xué)習(xí)的技術(shù)。
但這還不是智能的盡頭,下一個階段就是歸納世界,機器能夠通過自主學(xué)習(xí)主動發(fā)現(xiàn)人類尚未發(fā)現(xiàn)的物理規(guī)律,可以在生物、核能、材料、量子計算各個領(lǐng)域和科學(xué)家一起去完成創(chuàng)新,這個階段我們把它叫作歸納世界。我們看到模型的演進(jìn)是循著這條路線在往前走。
去年 8 月份的時候,從 OpenAI 流露出了 AGI 的 5 個 level,相信很多人都聽過,從 Chatbot 然后到 Reasoner、Agent、Innovator 和 Organization,如果我們?nèi)プx OpenAI 被每一個階段所描繪的定義會發(fā)現(xiàn),其實這五個 level 和我們的三個階段的邏輯是一致的,只是表述的方法不一樣而已。
過去兩年我們看到整個行業(yè)的模型進(jìn)化基本上就是遵循了這樣一個路線:從單模態(tài)到多模態(tài),從多模融合到理解生成一體化到強化學(xué)習(xí)。
我們也看到隨著模型能力不斷的增強,模型的應(yīng)用也發(fā)生了變化。比如說在最早期的時候,比較流行的應(yīng)用是各種各樣的聊天機器人,然后有了 Agent 以后我們就可以用它來解數(shù)學(xué)題,下一步進(jìn)化現(xiàn)在是非常火熱的 topic 就是智能體。智能體我們相信終將從數(shù)字世界走向物理世界,逐漸引申到智能駕駛和人形機器人這些領(lǐng)域。我們看出應(yīng)用其實跟模型的能力是匹配的,有什么樣的模型決定了有什么樣的應(yīng)用可以被解鎖、可以成熟和繁榮。
剛才我們介紹了一下行業(yè)的趨勢,回到階躍,階躍的發(fā)展也是圍繞著前面的路線圖。
在過去的兩年時間里,我們建立了一個 Step 系列的通用大模型的矩陣,這里我們首先把基礎(chǔ)模型分成了語言模型和多模態(tài)模型。在國內(nèi)的大模型公司里面,像我們這樣重視模態(tài)的全覆蓋并且堅持原生多模理念的公司并不多,但階躍從一開始就始終認(rèn)為多模態(tài)對通用人工智能非常重要。有一句話我也在很多場合不停的重復(fù):我們認(rèn)為多模態(tài)是實現(xiàn) AGI 的必經(jīng)之路。
我再多解釋一下為什么我們的信仰是這樣的,首先是 AGI 對標(biāo)的是人類的智能,人的智能是多元化的,每個人除了有來自語言的符號智能,還包括視覺智能、空間智能和運動智能等等,這些只能是需要通過視覺和其他模態(tài)來進(jìn)行學(xué)習(xí)的。所以我們認(rèn)為,在多模態(tài)領(lǐng)域任何一個方向出現(xiàn)短板都會延緩實現(xiàn) AGI 的進(jìn)程。除此之外,除了從 AGI 本身的標(biāo)準(zhǔn)和定義來說,如果我們從應(yīng)用的角度來看,不管我們是做垂直領(lǐng)域的應(yīng)用還是做 C 端的應(yīng)用,多模態(tài)都是必不可少的,我們是需要 AI 能聽、能看、能說,這樣它才能更好地理解用戶所處的環(huán)境,并且和用戶進(jìn)行更為自然的交流。目前的大模型公司有能力去全面自研預(yù)訓(xùn)練模型,并構(gòu)成這樣一個模型矩陣的,即使是大公司也不多,更不用說是初創(chuàng)公司了,這是階躍星辰的一個特色,也是我們的一個優(yōu)勢。
下一步的模型會有怎樣的發(fā)展呢?
在預(yù)訓(xùn)練的技術(shù)模型上加強強化學(xué)習(xí),可以激發(fā)模型推理的時候產(chǎn)生長思維鏈,極大地提高模型的推理能力。這已經(jīng)不是新的趨勢了,推理模型最早出來是去年 9 月份的時候,OpenAI 的 o1 的 preview,我印象還很深刻,因為剛出來沒有幾天,我就去阿里的云棲大會,當(dāng)時全場注意的焦點都是 o1 的 preview。很多人問這個模型意味著什么?當(dāng)時我還慷慨激昂地說了一大堆,不過后來的發(fā)展還是和我們當(dāng)初的預(yù)判是一樣的。我們覺得語言模型原來是一個 predict next token 這樣的一個模型,它雖然也能處理一些復(fù)雜的推理問題,但是由于沒有經(jīng)過長思維鏈這樣的激化,所以它的處理能力還是比較弱的。如果我們比較推理模型和那個時候的 GPT 范式的模型在推理的問題上做比較的話,它的差距是非常遠(yuǎn)的。
OpenAI 的 o1 preview 是去年 9 月份出現(xiàn)的,真正的滿血版是它的圣誕發(fā)布季第一天,就把 o1 的完全版發(fā)布出來了。隨著春節(jié)之前 DeepSeek 發(fā)布了 R1,我覺得這是一個標(biāo)志,推理模型從一個趨勢變成了一個范式,現(xiàn)在我們再看語言模型基本上是推理模型一統(tǒng)天下。
階躍在今年 1 月份的時候已經(jīng)發(fā)布了一個小的推理模型,我們叫 Step R1-V-Mini,它的速度很快,推理能力其實也挺強的,超出了當(dāng)時的 o1 的 preview 的版本,我們預(yù)計在未來三個月階躍會發(fā)布滿血版的 Step-R1。我們認(rèn)為,強化學(xué)習(xí)趨勢還會延續(xù)相當(dāng)長時間,因為還有很多有意思的問題,學(xué)術(shù)界、工業(yè)界都在討論,比如說推理的效率如何進(jìn)一步提高,推理的能力是不是能泛化到更多沒有獎勵函數(shù)、或者說獎勵函數(shù)也很難定義的領(lǐng)域,甚至包括合成數(shù)據(jù)怎么去生成,怎么進(jìn)行預(yù)訓(xùn)練等等,這都是眼下學(xué)術(shù)界、工業(yè)界大家討論非常多的問題,階躍也會在這方面持續(xù)地投入。
隱藏在推理能力這個話題里,還有一個點是如何把推理引入到多模態(tài)領(lǐng)域。確切地說,在視覺理解的基礎(chǔ)上,能不能加上視覺推理?
我舉一個例子什么叫視覺推理。
比如說我拿出一張球場的圖片(上海上港主場),問模型這張圖片是哪個地方,是哪個球隊的主場?一般的視覺理解會根據(jù)在訓(xùn)練數(shù)據(jù)里見過的差不多的圖片告訴你這是什么。但加了推理能力以后,會是什么樣的回答風(fēng)格呢?它會關(guān)注這個圖的細(xì)節(jié),比如說首先它會看到大的比分牌,因為我在問它這是誰的主場,比分牌上會根據(jù)隊伍的對標(biāo)判斷出來,這是上港和上海另外一個球隊的比賽,它在看看臺上的字,比如說看到的紅色力量,包括一般來說主場的球迷比較多,會根據(jù)球迷的球衣的顏色,再根據(jù)底下的廣告牌的內(nèi)容它應(yīng)該就能判斷出這是上海上港隊的主場,然后通過球場的頂部的建筑結(jié)構(gòu)能夠推斷出這是上港的體育場是上海浦東球場。這是把模型的感知能力和模型內(nèi)部所帶來的知識能結(jié)合起來,一起去做推理,這樣一個能力其實比起原先的視覺理解就強化了很多。
在實際的應(yīng)用中我們經(jīng)常會需要這樣復(fù)雜的推理。
比如說,我們有一個應(yīng)用是叫巡店,比如說茶百道和瑞幸在全國有很多的門店,這些品牌很關(guān)注門店中員工的操作是不是符合規(guī)范?以前每一個操作的細(xì)節(jié)或者是每一個規(guī)定是專門要訓(xùn)練一個模型的,因為模型的理解能力還是比較弱的,沒法兒做推理,現(xiàn)在用了我們這個模型以后,只要把規(guī)則寫在它的 Prompt 里,我們的模型就可以自動做推理,幫他去檢測員工的操作是不是合乎規(guī)范,極大地提高了巡店的效率,目前準(zhǔn)確率能夠做到 90%以上。
所以總結(jié)一下,第一個大的趨勢是:逐漸地把長思維鏈、推理能力加入到不管是語言模型還是多模態(tài)模型里面。
第二個趨勢就是多模理解生成一體化,更準(zhǔn)確的說是視覺領(lǐng)域的理解生成一體化。
如果大家聽我各種場合講技術(shù)聽得多的話,這句話已經(jīng)聽出繭子了,去年講到今年,已經(jīng)重復(fù)了無數(shù)次,我們一直在說理解生成一體化是多模態(tài)領(lǐng)域的核心的問題。什么叫做“理解生成一體化”,它的定義是理解和生成是用一個模型來完成。大家如果看了文本,比如說文本模型 ChatGPT,它就是理解生成一體化,所謂的理解,就是我們給出一篇文章讓它做總結(jié)或者 Q&A,這就是典型的理解問題。什么是生成呢?比如給它一個中心思想,來幫我寫一篇什么樣的文章,它寫出一篇很長的文章出來,這個叫生成。現(xiàn)在其實是不區(qū)分的,在文本領(lǐng)域不管讓它做理解還是做生成,用的都是 ChatGPT 這樣的模型。
到了視覺領(lǐng)域就不是這樣了,即使是對圖片,我們理解的時候用的是 GPT-4o 這樣的模型,或者是在階躍是用的 Step-1o。那么生成又換了其他的模型,比如說用 Flux、用 Stable Diffusion,階躍是用 Step image 這樣的模型。大家會發(fā)現(xiàn),為什么在視覺領(lǐng)域里,理解是理解模型,生成是生成模型,它是分開的。我們?yōu)槭裁匆欢ㄒ隼斫馍梢惑w化?因為現(xiàn)在理解和生成是分開的模型。一個本質(zhì)邏輯是,生成的內(nèi)容是需要理解來控制的,你為了保證生成的內(nèi)容是有意義的、有價值的,實際上是需要對它的上下文做一個更好的理解,簡單說就是“生成需要理解來控制”。
反過來,理解是需要生成來監(jiān)督的。Feynman 說了一句話“What I cannot create,I do not understand。”這句話是什么意思呢?我怎么知道我是真的理解了?只有當(dāng)我能夠生成,生成的時候我才知道我是真正地理解了,這句話是這個意思。比如說在語言這個領(lǐng)域,它就很好地體現(xiàn)了為什么理解需要生成去監(jiān)督。在 ChatGPT 的時候,大家知道它唯一的任務(wù)就是 predict next token,它 predict next token 這個過程就是在生成,它在整個訓(xùn)練的過程中就是看你 predict next token,predict 的對還是不對,來做監(jiān)督,它就可以一路理解、生成完成以后再回到框架做理解,這樣一步一步下去,就實現(xiàn)了自然語言的理解比以前的各種模型出現(xiàn)了一個斷代式的領(lǐng)先。所以如果我們把這個 predict next token 這樣一個任務(wù)平移到視覺領(lǐng)域就會問,我們能不能用一個模型去做 predict next frame?
這是視覺領(lǐng)域的一個靈魂拷問,到現(xiàn)在為止計算機視覺做了幾十年,不幸的是這個問題仍然沒有被解決。
大家可能問為什么?既然文本解決了為什么視覺不能解決?它的原因還是在于模態(tài)的復(fù)雜度。大家說語言是很復(fù)雜的,但是從統(tǒng)計來說,語言是一個簡單的東西,因為語言至多就十幾萬個 token,這十幾萬在數(shù)學(xué)里面我們就認(rèn)為這是一個離散的分布,所以這十幾萬的這樣低維度的離散分布在統(tǒng)計上,或者我們用神經(jīng)網(wǎng)絡(luò)去模擬或者是表達(dá)這樣的分布是一件簡單的事情。但在視覺一張圖片,我們先不說視頻,一張圖片 1024×1024 就是 100 萬維,每個維度還是一個連續(xù)的空間,所以,你去表達(dá)一個幾萬維的離散空間,和要表達(dá)一個 100 萬維的連續(xù)空間,它的難度是不一樣的,所以在視覺領(lǐng)域我們還沒有一個很好的、很高效地表達(dá)這么一個連續(xù)的高維的連續(xù)空間的生成問題,所以我們只好理解的時候用了一個 auto-regression Model 是自回歸模型,生成的時候還得依賴 diffusion Model。
在歷史中要把這兩件事結(jié)合在一起,大家已經(jīng)做了很多的嘗試。一種嘗試就是既然高維的連續(xù)分布這么難模擬,能不能把它變成一個離散的?這就是一種流派,我把連續(xù)的東西強行變成了離散,塞到語言的空間和大家一起訓(xùn)。但由于把它從連續(xù)的高維空間降到低維的離散空間有很多的信息就丟失了,這種方式大家是最容易想到的也最容易實踐的,但從來沒有成功過。第二種方式,高維的分布,想辦法把所謂的 auto-regression 的架構(gòu)和 diffusion 的架構(gòu)能合在一起,這其實也沒有做得很成功,所以這個問題的核心還是在探索的階段,還沒有很好地解決。
在 2017 年的時候出了一個架構(gòu)叫 Transformer,Transformer 這個架構(gòu)對整個業(yè)界最大的意義在于它是一個可以 scale 的,是一個 scalable 的文本的理解生成一體化的架構(gòu)。在那之前,比如說 LSTM(長短期記憶網(wǎng)絡(luò))或者 CNN(卷積神經(jīng)網(wǎng)絡(luò)),或者是其他的模型都不能 scalable,有了這個 scalable 的架構(gòu)以后,到了 2020 年的時候出了 GPT-3,GPT-3 的意義在于我們第一次把海量的互聯(lián)網(wǎng)數(shù)據(jù)放到了這個 scalable 的架構(gòu)上,可以讓它用一個模型去處理所有 NLP 的任務(wù)。但那個時候它是要 few-shot,需要去給它一些例子,然后它用一個模型來告訴你要怎么做。再往前走一步,到了 2022 年的時候出了 ChatGPT,ChatGPT 就是在預(yù)訓(xùn)練的模型的基礎(chǔ)上再加上指令跟隨,這是 GPT-3.5 做的事情。當(dāng)然到了 GPT-4 的時候,這個能力就進(jìn)一步增強了,所以我們經(jīng)常會一個 "GPT-4 時刻",指的就是在這個模態(tài)上,我們的模型真正能達(dá)到跟人的智能差不多的水平。然后,把模型從 GPT-4 指令跟隨的模型,再加上推理能力,就已經(jīng)可以解決非常復(fù)雜的邏輯問題了。
再往后是什么呢?很多人就覺得應(yīng)該是在線學(xué)習(xí)或者是自主學(xué)習(xí),就是能夠不斷地自己根據(jù)環(huán)境去學(xué)習(xí)到新的知識。所以我們看到語言模型,就是隨著這條路往前進(jìn)化得非常清楚,而且到目前為止,我們覺得語言模型的技術(shù)路線基本上收斂了,沒有出現(xiàn)別的分支。世界上不管是 OpenAI 也好、Google 也好、Anthropic 也好,國內(nèi)任何的公司基本上語言模型都在朝著這條路往下走。
我們相信其實視覺也是可以 follow 同樣的路線的。那么它要 follow 同樣的路線,第一步要能做到什么呢?是理解生成一體化。并且它要有一個非常 scalable 的理解生成一體化的架構(gòu),為什么要有這個東西?有了這個東西以后我就能解決 predict next frame。如果我能解決 predict next frame,那世界上海量的視頻數(shù)據(jù)就可以我給用來做預(yù)訓(xùn)練。我們可以想象一下孩子在剛出生的時候,其實它是不知道什么叫重力的,他不懂文字,但他通過眼睛的觀察逐漸就能學(xué)會如果一個杯子一松手就往下掉,人的這套系統(tǒng)就是在出生以后在做視頻的預(yù)訓(xùn)練,它可以非常好的 predict next frame,所以我們希望將來的模型有這樣的能力,現(xiàn)在還達(dá)不到。
如果我能夠用海量的視頻去做預(yù)訓(xùn)練,它能 predict next frame 以后,下一步肯定跟語言模型一樣,加各種指令讓它生成一個什么,讓它預(yù)測一個什么東西,這樣就會把所有的計算機視覺的東西統(tǒng)一在這樣一個模型里。再往后就一定是做推理,推理為什么很重要?現(xiàn)在大家做自動駕駛或者是做機器人,大家肯定聽說過 VLA 模型,就是 vision language action 這個模型,現(xiàn)在的 VLA 我覺得是有點叫 VLA1.0,因為它是一個預(yù)測模型,就是說我告訴你過去發(fā)生了什么,當(dāng)下我看到的畫面是什么,你來 predict 我應(yīng)該做什么操作,我是應(yīng)該方向盤做什么操作呢?還是應(yīng)該機器人應(yīng)該怎么走?它是一個 predict,我通過過去的 vision 來 predict 當(dāng)下的 action 是什么。那人是怎么做的?人其實不止這一點,是在腦海里在當(dāng)下會潛意識地有一個 action 的分布,它甚至?xí)A(yù)判我如果做這個 action 下一步會產(chǎn)生什么,它是通過對未來的預(yù)判來決定現(xiàn)在要做什么。這個過程既有理解又有生成,因為它要先判斷它有哪些 action,然后再判斷這個 action 會造成哪些后果,判斷這個后果的過程就是一個生成的過程。所以,理解生成一體化如果解決了以后,帶了推理的 VLA,就不是今天的 VLA 了,它是一個能夠帶上對未來預(yù)測的更好的預(yù)測。其實這里面你如果看到的是一個 action 的分布,并且根據(jù) action 對未來的預(yù)測來對當(dāng)下做一個最優(yōu)的策略的選取的話,那它就是強化學(xué)習(xí)。
如果能做到時空推理、加上 3D 、再加上自主學(xué)習(xí)以后,我們就覺得到了世界模型的階段。如果到了世界模型,我認(rèn)為我眼中的 AGI 就實現(xiàn)了。雖然我們還沒有徹底地解決理解生成一體化,但我們覺得如果這個問題一旦突破了以后,它今后的道路會非常順暢,就會和文本一起發(fā)展到世界模型。
理解生成一體化非常重要。不知道大家有沒有看過最近的 GPT4o 的新版,它叫做 4o Image Generation,很多人非常喜歡,因為可以做各種各樣的編輯。給它一張圖,給它一個指令,它就能幫你做各種各樣的編輯,而且是多輪的,這個能力是以前不曾有過的,而要具備這樣的能力,其實你要理解生成一體化,為什么這么說呢?首先這個模型能夠聽懂你要它做什么編輯,這是需要理解的。第二,它編輯出來的圖形是要是要在原有的基礎(chǔ)上做,不能隨便地生成,一般文生圖就是你給它一句話它可以海闊天空、天馬行空地生成,但現(xiàn)在你給它了一張參考圖,再給它一個指令,它同時要理解這個圖片是什么意思,這句話是什么意思,根據(jù)你的指令和原作進(jìn)行創(chuàng)作,這個是需要理解和生成放在一個模型里面的,否則的話生成出來的圖片就和原來的沒有關(guān)系了。我們前不久剛剛發(fā)布的模型叫 Step 1X-Edit,這里放了很多的例子,如何對圖片進(jìn)行修改,大家看到其實它對原先的圖片的忠實度是非常高的,原因就在于我們背后采用了一個理解生成一體化的模型,當(dāng)然這個還是比較初級的階段,我們內(nèi)部還在開發(fā)一個更高級的版本,未來幾個月也會把更先進(jìn)的技術(shù)發(fā)布出來。
前面講了很多關(guān)于模型的部分,回歸到階躍,我們還是堅持基礎(chǔ)大模型的研發(fā),追求智能的上限,同時,我們也強調(diào)多模態(tài)對 AGI 的重要作用。
接下來我們就聊一聊應(yīng)用這部分,階躍一直有一個策略叫做“超級模型加上超級應(yīng)用”,雙輪驅(qū)動的策略。
說起應(yīng)用,其實大家心照不宣,最熱的概念就是 Agent,很多人說 2025 年叫做 Agent 元年。為什么 Agent 這個概念在這個時間點突然變得非常地?zé)幔科鋵崳矣浀?2023 年的時候大家就討論過 Agent,當(dāng)時有人畫了一個 Agent 的架構(gòu)圖,那時候并沒有引起大家太多的關(guān)注,甚至很多人說為什么叫 Agent?這個詞聽起來怪怪的,想說什么?但2025 年的時候就突然變得非常地火熱了,我的理解是,Agent 爆發(fā)需要兩個必要的條件,一個是多模態(tài)的能力,另外一個是慢思考的能力,這兩個能力恰好在 2024 年的時候取得了突破性的進(jìn)展。
為什么說多模態(tài)的能力很重要?我覺得,多模態(tài)可以讓智能體充分地理解和感知這個世界,這樣它可能更好地理解用戶的意圖。如果想讓任務(wù)的完成率更高,其實 Agent 還需要強大的推理能力,就是慢思考的能力。
我們?yōu)槭裁磿x擇智能終端 Agent 作為方向呢?
首先,我們認(rèn)為 Agent 要能更好地幫助人類去完成任務(wù),需要去理解用戶所處的環(huán)境和任務(wù)的上下文,其實很多的終端是用戶的感知和用戶體驗的延伸,比如說我們的手機,最近的一些 AI 眼鏡或者是耳機,它可以認(rèn)為是人體器官的延伸,它可以搜集我們所處的環(huán)境,能夠幫助模型更好地理解用戶的上下文。還有一個例子是最近大家用過的最火熱的硬件是 Plaud Note,就是貼在 iPhone 后面的,我想了半天為什么它能很火呢?它其實就是在收集用戶的 context,它實際上就是用戶的一個耳朵,是人耳的延伸,用戶帶著它到處跑,它能聽到用戶聽到的所有的信息,然后它對這個信息進(jìn)行加工,完成用戶讓它完成的任務(wù),這就是一個非常自然的過程。我自己也非常看好 AI 眼鏡,它能讓你看到看到的所有的東西,它不需要你把手機拿出來拍一下,就直接能看到了,所以我覺得,智能終端是人的感知和體驗的延伸,所以在你發(fā)起任務(wù)的時候它已經(jīng)知道任務(wù)的上下文了,這是一個非常大的便利。
第二是很多的智能終端或者是終端的設(shè)備就是幫你完成任務(wù),比如說微波爐,我家里的微波爐有上百功能,但是我很少用,因為我很少看說明書,也不知道某一個功能如何操作鍵,所以我希望它是一個 Agent 放一個芯片在微波爐里就可以直接跟它對話,我可以告訴它你直接幫我把雞蛋給蒸了,我也不需要去研究按鈕了,它就幫助我去做了,我覺得其實智能終端是完全有能力實現(xiàn)這件事情的,甚至大家想得再神奇一點,不光讓它完成微波爐分內(nèi)的工作,你說我今天的雞蛋吃完了,它也許可以連接到你的手機,知道你一般是在哪兒買雞蛋,知道下單的地址送到你家,將來也許所有的終端都能被 “Agentis every hardware”,這是我自己造的詞,就是把那么沒有生命得不知道怎么跟人類交流的終端設(shè)備變成一個似乎是你的伙伴的 Agent。
階躍在這里面扮演什么樣的角色呢?我們想建立這樣一個生態(tài),首先是在模型的基礎(chǔ)上會開放出構(gòu)建各種各樣 Agent 的 stutio,在云里面還會開辟專區(qū),作為 Agent 的 runtime,所以這是云端的一半,智能的終端就是我剛才說的,它本身就有芯片了,或者我們能造出這樣的芯片出來,它能夠和人進(jìn)行自然的交互,它能看見、能聽見、能說話,端側(cè)的模型和我們在云里的 Agent 來進(jìn)行交互,幫助用戶來完成一系列的任務(wù),所以,階躍在其中扮演的角色就是我們想提供這樣一個平臺,能夠圍繞著這樣一個云的平臺去構(gòu)建智能終端 Agent 的生態(tài)。
我們其實現(xiàn)在在智能終端上也選取了幾個重要的終端,一個是手機、一個是車,還有一個是機器人,我們和各個方向的頭部企業(yè)展開了深度的合作。
我講了非常多的內(nèi)容,最后我想表達(dá)三句話:
第一,階躍目前的狀態(tài)是堅持基礎(chǔ)大模型的研發(fā),所以追求 AGI 是我們的初心,我們也不會改變。
第二,在當(dāng)前的競爭格局中,我認(rèn)為階躍差異化的特點就是多模態(tài)的能力,不僅眼下很多模態(tài)在業(yè)界的性能是領(lǐng)先的,而且我們也在積極地探索前沿的方向,我們也認(rèn)為這里還存在著非常巨大的機會。
第三,在應(yīng)用的層面,我覺得階躍也走了一條差異化的路線,攜手我們的合作伙伴在智能終端 Agent 這個方向上發(fā)力,最終可以形成一個從模型到 Agent,從云側(cè)到端側(cè)的生態(tài)體系,因為我們認(rèn)為軟硬結(jié)合是能更好地理解用戶的需求,完成用戶的任務(wù)。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4327029.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.