衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
當(dāng)大模型賽道中不少玩家明確表示放棄基礎(chǔ)大模型研發(fā),心思放在更聚焦的方向上時,階躍星辰站出來——就像這家公司第一次亮相時那樣,給外界一個明確的回答:
- 我們會堅持基礎(chǔ)大模型研發(fā)。
創(chuàng)始人兼CEO姜大昕解釋了背后邏輯。
一方面,大模型行業(yè)的趨勢技術(shù)發(fā)展還是在非常陡峭的區(qū)間。他也很感慨AI行業(yè)發(fā)展瞬息萬變,“去年大家覺得GPT-4很牛,今天他都快下架了”,等到明年看今年的技術(shù),同樣會覺得微不足道。
姜大昕說,階躍不想在這個過程中放棄主流增長或前進(jìn)的趨勢,所以還是會堅持做基礎(chǔ)模型的研發(fā)。
另一方面,從應(yīng)用的角度來看,階躍仍然相信應(yīng)用和模型是相輔相成的。
“模型可以決定應(yīng)用的上限,應(yīng)用給模型提供具體的應(yīng)用場景和數(shù)據(jù)。”姜大昕表示,雖然階躍的產(chǎn)品形態(tài)隨著模型的演變是動態(tài)發(fā)展的,但這樣的邏輯關(guān)系還是一直保持下去的。
確實(shí)如他所說,在過去的一年里,階躍星辰旗下產(chǎn)品從命名、布局和形態(tài)上都發(fā)生了轉(zhuǎn)變。
主打的C端助手App,由“躍問”改名為“階躍AI”,意味著它從類ChatGPT產(chǎn)品到Agent的轉(zhuǎn)變;產(chǎn)品重點(diǎn)形態(tài)從用戶普遍直接使用的手機(jī)App變成了端云一體Agent平臺。
“雖然我們的智能終端Agent和頭部企業(yè)合作,但總體而言,階躍的產(chǎn)品最終是服務(wù)C端的。”姜大昕表示,“不管作為助手類也好、內(nèi)容類也好,都有非常大的機(jī)會。”
大模型領(lǐng)域的兩條顯著趨勢
姜大昕同時強(qiáng)調(diào),模型的突破是早于商業(yè)化的。就拿OpenAI來說,是先有了GPT-3.5,才有了ChatGPT。
因此,在基座模型上面繼續(xù)投入以追求智能的上限,仍然是當(dāng)下最重要的一件事。
要怎么去不停觸碰智能的邊界or天花板?不如先來看看這個領(lǐng)域里最前沿的趨勢有哪些。
姜大昕復(fù)盤道,趨勢共有如下兩條:
一條是“模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí)”,另一條是“從多模態(tài)融合走向了多模態(tài)理解生成一體化”。
從模仿學(xué)習(xí)到強(qiáng)化學(xué)習(xí)的技術(shù)演進(jìn)大家已經(jīng)非常熟悉, OpenAI的o1、o3,以及DeepSeek-R1背后采用的都是強(qiáng)化學(xué)習(xí)技術(shù),也是現(xiàn)在大模型玩家爭先恐后著重投入的方向。
第二條趨勢則關(guān)乎多模態(tài)。
姜大昕再次提到了那句他在多個場合不停重復(fù)提及的話:多模態(tài)是實(shí)現(xiàn)AGI的必經(jīng)之路。
無論是從人類智能的多元化角度(符號智能、視覺智能、空間智能等),還是從垂直領(lǐng)域AI應(yīng)用需求來說,大模型的多模態(tài)能力都必不可少。
在這樣的認(rèn)知指導(dǎo)下,階躍星辰在研發(fā)基座模型時采取了散彈式打法:
成立兩年,公司累計發(fā)布22款基座模型,覆蓋文字、語音、圖像、視頻、音樂、推理等系列。
其中有16款是多模態(tài)模型,占據(jù)總數(shù)七成;這些多模態(tài)模型又分屬圖像理解、視頻理解、圖像生成、視頻生成、圖像編輯、音樂生成、多模態(tài)推理等方向。
業(yè)界公認(rèn)階躍是多模態(tài)卷王,也不是沒有道理。
多模態(tài)理解生成一體化才是未來
至于如何追求智能的上限,階躍目前行進(jìn)的路線與第一次公開亮相時所講的那樣一般無二,即“單模態(tài)——多模態(tài)——多模態(tài)理解和生成的統(tǒng)一——世界模型——AGI”。
姜大昕重點(diǎn)解釋了關(guān)于“多模態(tài)理解生成一體化”的部分。
它意味著多模態(tài)模型的理解和生成用一個模型來完成,而不是“視頻/圖像/語言轉(zhuǎn)文本——文本理解與生成——生成結(jié)果轉(zhuǎn)視頻/圖像/語音”的三段式過程。
大語言模型的理解生成一體化,已經(jīng)有類GPT實(shí)現(xiàn)統(tǒng)一;然而在視覺領(lǐng)域并不如此,人們往往在理解視覺內(nèi)容時選擇一個模型,在生成內(nèi)容時調(diào)用另一個模型。
這并不是一個可以直接從語言模型的NTP(Next-Token-Prediction)直接遷移到視覺模型的NFP(Next-Frame-Prediction)的簡單事。
語言文本模態(tài)是低維度離散分布的,而視覺模態(tài)是高維度連續(xù)分布,這也就是說后者在進(jìn)行訓(xùn)練學(xué)習(xí)時,復(fù)雜性更高。
從技術(shù)角度來看,視覺領(lǐng)域的內(nèi)容生成需要理解來控制——如果想保證生成內(nèi)容有意義、有價值,實(shí)際上需要對視覺的“上下文”作出更好的理解。
反言之,理解需要生成來監(jiān)督。姜大昕解釋說,就是“只有生成了的時候才是真正的理解了”。
現(xiàn)在,視覺領(lǐng)域還沒有出現(xiàn)自己的Transformer架構(gòu),階躍就是想做出一個視覺領(lǐng)域的、生成一體化架構(gòu),并且是非常scalable的。
姜大昕分享道,GPT-4o可能已經(jīng)實(shí)現(xiàn)了多模態(tài)理解生成一體化,而階躍的圖像編輯模型Step1X-Edit也初步實(shí)現(xiàn)了這一點(diǎn)。
之所以稱其為“初步”,是階躍覺得Step1X-Edit的效果依然有很大改進(jìn)空間,還可以在架構(gòu)上做進(jìn)一步的優(yōu)化,數(shù)據(jù)上也可以做進(jìn)一步的打磨,讓它的效果變得更好一些。
但具體走哪條路線能精益求精,不管是階躍內(nèi)部還是業(yè)界都沒有公認(rèn)的真理。姜大昕表示,在這一方面,階躍內(nèi)部多有條技術(shù)路線并行,因為確實(shí)哪一條路線都會有可能出現(xiàn)突破。
“一旦突破以后,今后的道路會更加順暢。”姜大昕稱。
One More Thing
既然認(rèn)可多模態(tài)理解生成一體化才是未來,為什么階躍不把所有的精力集中在Step-R1-V-Mini這樣的多模態(tài)推理模型上,反而是要在各個模態(tài)上都發(fā)力呢?
量子位把這個問題拋給了姜大昕。
他很坦然,表示也想過做,但這行不通
- 理解生成一體化是非常綜合素質(zhì)的考驗。
首先要理解。如果語言模型不行就談不上理解,何況現(xiàn)在語言模型又進(jìn)化到了推理模型,這塊不能省。
第二要做視覺推理。視覺推理是視覺理解的升級,所以要做視覺理解。
要做理解生成一體化還要有生成端,所以生成也必須做。
簡單點(diǎn)說,做理解生成一體化,必須自身具備非常強(qiáng)的綜合實(shí)力
但姜大昕信心滿滿,“我們幾條線的能力都非常強(qiáng),所以才可以組合起來去探索這個路徑”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.