在啟明創投第十六屆人民幣基金年會暨投資人高峰論壇上,啟明創投主管合伙人周志峰與階躍星辰創始人、首席執行官姜大昕以“探索AI創業‘無人區’的階躍星辰”為主題進行對話。雙方圍繞AGI(通用人工智能)的定義、發展的路線圖,當前大模型技術進展,為什么2025年AI Agent火爆出圈,及階躍星辰在AI Agent領域的布局等話題展開深入探討。
啟明創投主管合伙人周志峰(左)與階躍星辰創始人、首席執行官姜大昕(右)
姜大昕指出,AI模型的技術發展仍然處于非常陡峭的上升階段,理解和生成一體化的多模態模型非常重要。在Agent的戰略布局上,階躍星辰聚焦于智能終端方向。他強調,Agent的關鍵能力在于通過多模態交互理解用戶所處的環境與任務的上下文,并主動、自主地幫助用戶完成任務。階躍星辰的一大重要目標是打造一個智能終端的平臺,讓更多人調用其全方位模型矩陣。
對此,周志峰表示,如今AI領域的“模型即產品”理念與互聯網時代的產品構建理念存在很大差異:在AI場景中,一個或一組優秀的模型或Agent直接決定產品70%-80%的表現;而互聯網時代因技術底座成熟,企業專注于產品層面的創新。
以下系經精編整理的對話實錄,有編輯與刪節01/實現AGI的三個階段
周志峰:下午好,您能夠來我們峰會,我特別開心。1月份DeepSeek兩個模型發布以后,我收到無數問詢,是不是DeepSeek一出來,我們投資的階躍星辰和智譜AI等都面臨巨大的挑戰?今天請您幫我回答這些挑戰性的問題。
4月份,習近平總書記來到上海徐匯區的“模速空間”大模型創新生態社區調研,有四家企業是一對一做了匯報,階躍星辰是其中唯一一家大模型企業。
姜大昕:當時機會也是非常難得,階躍星辰作為上海人工智能基礎大模型企業,第一個做了匯報,我們介紹了基礎大模型技術和應用的最新進展,展示了多模態大模型與智能終端場景相結合,為每一個人的生活帶來便利、創造價值。
周志峰:之前行業中經常提及中國大模型六小虎的概念,加上幾家科技大廠,是中國研發基礎大模型的主力軍。近期又有媒體提出“新五強”爭鋒,其中三家是已有較大體量的公司:字節跳動、阿里巴巴、DeepSeek、智譜AI、和階躍星辰,認為這五家企業將在沖向AGI(通用人工智能)的道路上繼續努力。您怎么看?您的AGI定義是什么?階躍星辰的愿景是什么?應該如何走向AGI?
姜大昕:AGI是什么?其實業界沒有共識。如果十年之前,大家說我們討論一下AGI什么時候能實現,感覺像是天方夜譚,甚至五年之前大模型沒出現時,大家也覺得這件事情不在討論范圍之內。現在大模型越來越多之后,更多人會認為AGI會在未來五年到來,大家給出的時間表不一樣,從2026年至2030年不等。
到底什么是測試AGI到來的準則?4月美國一所大學做了一個測試,用傳統的圖靈測試測了OpenAI GPT-4.5,發現30%的人分不清它究竟是AI還是人類,73%的情況下成功使人們相信其為人類。按照圖靈測試原始的定義,這意味著GPT-4.5通過了圖靈測試。我們覺得僅是這樣的標準并不能認為AGI就到來了。所以我和硅谷的朋友交流時,他們給出一個新的AGI定義,對標的是人類智能,就是說模型能夠完成現有的人類工作的百分比。這個百分比應該是有多少,不同人的看法不一樣,如果我定的話,一個保守的數字,50%。
2030年的模型如果可以完成人類現有工作的50%,我認為AGI就到來了。階躍星辰在創立之初給自己設立了目標,就是要實現AGI,我們幾位創始人當時畫了一張實現AGI的路線圖,這張圖劃分了三個階段:模擬世界、探索世界和歸納世界。
所謂模擬世界,這里的學習方法是模仿學習,我們把互聯網所有的數據都灌入大模型,通過非常簡單的任務讓模型領會數據內在的結構和特征,這個階段它最主要的是學習各種模態的表征,從語音,到聲音,到圖像,到視頻,到4D物理時空,這里的核心問題是我們如何用深度神經網絡實現從簡單到復雜的各個模態的表征,這是第一階段要完成的工作。
學會表征世界以后,第二階段我們要讓模型幫助我們解決問題,特別是一些很復雜的問題。比如寫一段代碼或做數學題,我們經常需要很強的思維鏈。人在解決這種復雜問題的時候,用到的一個能力叫做慢思考。舉個例子,我們做一道數學題的時候,往往不是一口報答案的,而是把一道題拆解成不同的步驟,如果覺得開始的思路不對,我們會反思,想新的解決方法。所以這是不斷試錯探索的過程,如何讓機器具備這樣的慢思考的能力,背后用到的算法就是強化學習。強化學習這個概念并不是很新,今年也很巧合,圖靈獎頒給了兩位強化學習的專家,一位是Andrew G. Barto,另一位是Richard S. Sutton,后者寫了一篇很著名的文章《苦澀的教訓》,據說OpenAI的人每天把它當作《圣經》一樣讀一遍。
2016年擊敗人類圍棋圣手李世石的AlphaGo是強化學習的典型代表,到了今年大家熟知的DeepSeek背后也是采用了強化學習的算法,使得模型推理能力得到了很大的提升。
但強化學習還不是智能的終點,再往下走的話,智能能夠進化到自主學習,模型能夠在生物、核能、量子計算這些最前沿領域和科學家一起發現新的規律,發現人類沒有發現的物理規律,這個階段我們把它叫做歸納世界。
去年8月份OpenAI公布了五個智能演進的層級(level),最早是Chatbot(聊天機器人),然后是Reasoner(邏輯推理),Agent(智能體),Innovator(創新者),Organization(組織),如果我們仔細去看它的定義,會發現這五個層級和我們三個階段背后的邏輯是一致的,只是各自描述的方式不同。
我們看到OpenAI或國外的大公司發布的模型雖然很多,但如果沿著這條路線圖看的話,會發現它的模型是不斷覆蓋這條路徑上的關鍵節點。今天從模擬世界到探索世界,我們看到這個趨勢變得越來越清晰了,所以我們的信心也是越來越足。
周志峰:說到大模型,回到開場的DeepSeek,都是做大模型的公司,到底階躍星辰和DeepSeek等公司相比,我們的差異化特點是什么?
姜大昕:我介紹一下我們在過去兩年做的工作,我們發布了一些大模型,雖然都叫基礎大模型,但功能和方向是不太一樣的,我們可以把它分成:語言模型和多模態模型。語言里面有基礎模型和推理模型,在多模態領域可以按照不同模態進行分類,有語音模型、音樂模型、圖像模型和視頻模型。
如果按照功能分類,還可以分成理解模型和生成模型。我們的一大特色就是非常重視多模態能力,且不斷增強(這個能力)。階躍星辰堅持全模態覆蓋及原生多模態理念,這在業界是一個非共識,但我們始終相信多模態是通向AGI的必經之路。
實際上AGI是類比人的智能來定義的,人除了語言的符號智能以外,天生還有視覺智能、空間智能和運動智能,這些智能光靠語言是無法實現的,必須通過多模態體現。除了AGI概念以外,一旦到了應用領域,不管是做C端,還是做垂類B端應用,我們都希望模型像人一樣能夠聽、能夠看、能夠說,這樣它才能更好地理解用戶所處的物理環境,并且以很自然的方式和用戶交流。從這兩個角度來說,我們覺得缺乏了任何一個模態都會延緩實現AGI的進程。所以和別的公司比起來,能夠做到堅持自研全面的基礎大模型,并且構建完整模型矩陣,大廠尚屬少數,更別說創業公司,這也是我們的特色和優勢。
02/技術進展與發展趨勢
周志峰:之前提到的六小虎也有一些已經公開宣布徹底放棄預訓練,只做后訓練等研發,感覺大家的選擇越來越不一樣。從您的角度來看,階躍星辰覺得目前的技術有什么主要進展?我們接下來會怎么走?
姜大昕:一方面模型能力確實在不斷提升。推理模型也好,多模態模型也好,正在不斷提升,催生了應用落地,DeepSeek出來以后,大家覺得以前很多在應用場景做得不好的工作,現在通過很強的模型也可以實現了,模型能力解鎖了很多應用場景,另外我們覺得模型發展并沒有減速。
春節之后,可能受到了DeepSeek的影響,美國五家頭部企業發布了很多模型,OpenAI先是發布了o3和GPT-4o解決方案,而且OpenAI的發布時間一般與谷歌的發布時間差不多,谷歌同時間發布了Gemini系列。其他還有Claude 3.7 Sonnet,短短兩個月的時間,國外五家頭部模型公司爭先恐后地發布了模型,所以模型的進展并不慢,而且透過這些模型的發布,我們還是能夠看出整個發展的趨勢。
第一,現在的模型正在從原來的模擬世界、模仿學習的模型,走向強化學習的模型。
最早強化學習的模型是去年9月OpenAI發布的一款o1模型,到了12月發布了滿血版,再到春節DeepSeek發布了R1模型,這基本宣告了推理模型從趨勢變成了一個范式。現在再去看上述幾家國外頭部企業發布的模型,基本都是融合了推理能力。階躍星辰在推理方面也做了一些工作,1月份我們發布了一個小的Step R-Mini模型,在當時已經超過了OpenAI o1 preview模型,未來我們也會發布滿血版的推理模型。在推理模型方面,我們看到還有很多工作在推進。比如,如何進一步提升推理效率。大家現在認為思維鏈非常長,但有一些是無效思考。
第二,很關鍵的問題,強化學習如何在像數學、代碼這樣有明確對和錯的領域,以及很多無法明確判定對錯和價值觀的領域,泛化獎勵函數?以及思維鏈如何人工合成這些數據并放到預訓練里面?這些是現在產業界和研究界非常熱門的話題。
推理模型在未來一到兩年里還是會繼續往前發展。同時我們還看到一個趨勢,推理模型不僅可以用在文字領域,現在多模態領域也實現了推理,以OpenAI o3模型為例,網友給它一張圖讓它猜這是什么地方,它真的像福爾摩斯一樣,通過細節去推斷圖片中究竟是什么地方。這里我向大家演示,這是我們最近發布的圖片推理模型,給它一張圖片,讓它判斷這是哪個中超球隊的主場和比賽。
如果大家以前玩過圖像識別的話,會發現上一代視覺模型只是從訓練數據里面找差不多的內容,還是一個快思考的過程,即看到這張圖片之后判斷自己在哪里見過,這并不是推理。
現在的模型能夠從球場的比分牌上找到兩個參賽隊伍的隊標。還會看看臺上球迷的衣服顏色,判斷是誰的主場,這時候它已經可以推斷出是哪個體育場了。另外,通過體育場的建筑風格,比如體育場的頂部,確認究竟是哪個球場。
它已經不是一眼報,而是通過細節和感官識別與內部知識庫結合做推理,所以推理的能力會變得越來越強大。
我們還看到一個有趣的趨勢,多模態融合走向理解生成一體化。首先我解釋一下,什么是理解生成一體化。
在語言模型中,比如DeepSeek,我們給它一篇文章,讓它回答問題或生成總結,這是典型的理解類任務;反過來,如果給它一個標題讓它進行創作,這是生成類任務。大家通常不會區分這兩種任務,而是用同一個模型完成。但在多模態領域這兩者是分開的,像剛才判斷一張圖的內容信息,得用GPT-4V或GPT-4o這樣的模型,如果是生成,要用Sora這樣的模型。所以,在視覺領域還沒有實現理解和生成的一體化。
為什么這個問題非常重要?比如老師拿粉筆在黑板上寫字,他手的運動,包括粉筆和黑板接觸的痕跡,Sora是可以模擬的,如果老師寫到一半停下來了,我們去問他后面會寫什么,這是需要一個理解模型去預測,而生成模型Sora是沒有這樣的能力的,這就是我們說的理解和生成并沒有一體化。
從生成的角度來看,目前的生成模型還不受理解控制。從理解的角度來看,什么才算是真正的理解?如果我不能創造,那就說明我并沒有理解,只有我能真正自主創作,才說明我實現了真正的理解。就如同Richard Feynman說的——“What I cannot create, I do not understand”。
在文本領域,生成任務是Predict Next Token,同時模型也可以理解整個互聯網上的知識,理解這個大千世界。如果平移到視覺領域,Predict Next Frame還無法做到,計算機視覺的研究已經進行了幾十年,到目前還不能實現。這導致后面很多事情,比如要生成一個比較長的視頻,讓它符合物理規律、符合邏輯,目前還辦不到。同樣,如果要做一個通用的機器人,給它一條指令,它就能完成多樣性的任務,這件事情目前做不到,也是因為視覺領域還不能做到真正的泛化。
所以理解生成一體化非常重要。目前我們看到一個很好的趨勢,就是以GPT-4o為代表的模型,用戶給出指令,它生成一張圖,用戶可以不斷輸入指令,讓它不斷編輯,這里面所需要的能力是理解生成一體化。首先它要理解指令,第二要實現根據指令進行編輯,模型在生成圖片的時候必須要理解文字和圖像,這件事情是非常難的。雖然OpenAI并沒有公布細節,但我們可以看到它一定是在理解生成一體化方面前進了一大步,階躍星辰在這方面也有一些進展,我們最近開源了一個模型,能夠進行多輪圖像編輯。
我們現在覺得模型技術發展還是處在非常陡峭的上升階段,每六個月我們都會發現極具顛覆性的技術的涌現,我們一方面看到技術確實已經成熟到可以做應用的階段,但同時不能忽視這個技術還是快速地往前發展。
03/打造智能終端平臺讓更多人調用階躍星辰全方位模型矩陣
周志峰:大模型依然很熱,今年有一個方向更熱——AI Agent,階躍星辰是如何布局這個方面的?
姜大昕:Agent確實很熱,很多人說2025年是Agent的元年,我覺得其實Agent這個詞在2023年就出來了,那時候有一張Agent的架構圖。為什么一直沒火,但到了2025年這個概念變得非常火?它能夠成功和兩個因素有極大的關系:
第一,AI Agent能夠處理非常復雜的問題,這就需要模型有非常強大的推理能力。去年下半年推理模型出現,發展到今年年初的時候,Agent隨之逐漸成熟了。
第二,它需要多模態的能力,因為Agent需要理解用戶所處的環境,理解任務上下文,需要模型的多模態的能力。
這是AI Agent這么火爆的技術推動力。
至于什么是Agent?我覺得大家各有各的觀點,有的寫得非常長,各方面描述了什么是Agent。在我看來,非常濃縮的定義是能夠自主地幫助人類完成復雜任務的體系就叫Agent。我們再進一步看什么是自主?它包括兩層含義:自動、主動。所謂自動,就是它在完成一個復雜任務時,盡可能獨立完成,減少或不需要人類的干預,交給它一個任務,它能夠自己運行并在最后交付一個結果,這是自動化的過程。
主動是比較難實現的一點,大家習慣在做一件事情時,思考誰能幫我完成,我要操控界面來實現,任務的發起者通常是用戶本人。我們設想一下,如果有一款會議軟件,當開始會議時自動開啟錄音,會議結束后自動生成總結;在開會過程中,如果上級突然提了一個你沒有準備的問題,它能自動幫你匯總相關資料并呈現出來,這是多么好的一個Agent。所以Agent必須是兼具自動性、主動性的
周志峰:階躍星辰是如何布局這一領域的呢?
姜大昕:目前我們在發力智能終端Agent。
智能終端往往是人的感知和體驗的延伸。現在有一款硬件非常火,叫Plaud,有幾千萬美元的營收。它是一款錄音筆,做得非常巧妙,可以貼在iPhone背面,能夠帶著它到處跑。它隨時可以錄音,比如在通話的時候錄音,這就是人類耳朵的延伸,可以隨時隨地讓它幫助你收集整理你聽到的信息,這就說明硬件作為一個Agent能夠主動地理解用戶的環境,明白任務的上下文,這個能力是非常關鍵的。所以很多智能設備存在這樣的屬性,是眼睛的延伸,是耳朵的延伸,比如啟明創投投資的影石創新(688775.SH)就是眼睛的延伸,我們也希望它進一步變成一個Agent,拍照的時候不需要按下按鍵,只需要和它說拍照,或它理解什么時候該拍,什么時候不該拍。
另外智能設備往往是可以幫助人完成任務的,比如現在微波爐有上百種功能,如果不看說明書的話很難進行操作。假設在微波爐內植入一枚芯片之后,可以很人性化,用戶說“幫我把雞蛋蒸一下”,它自己就可以完成了。它的特點是能夠通過自然語言和用戶交互,理解用戶所處的環境及意圖,并且自動幫助用戶完成任務,我們最終希望打造一個智能終端的平臺,讓更多人調用階躍星辰的全方位模型矩陣。
周志峰:正如前面所介紹的,我覺得模型還在快速演進迭代,技術底座在快速變化,變得更智能。我所尊敬的一些經歷過互聯網時代的投資人,或許因各種緣由,認為不應該投資模型公司,而只宜投資有真金白銀收入、具備商業化能力的應用公司。我覺得中國進入互聯網時代是在后半場,那時候任何一家互聯網創業公司幾乎不用擔心技術底座的任何問題,就專注于產品層面的創新。互聯網的產業鏈很短,上方是流量,下方是廣告等商業變現手段。而今天的AI時代,還是在上半場,模型層面或技術底座還有大量的優化空間,某種意義上,就像“模型即產品”所體現的,一個好的Agent或模型決定了產品的七八十分。在這個時代,超級應用公司是否將誕生于像階躍星辰這樣掌握底層模型能力的企業?
姜大昕:我非常同意你的說法,我也和很多產品經理聊過,他們覺得在互聯網時代成功的產品經理,在AI時代可能要重新學習一遍。在互聯網時代,技術是相對確定的,產品是不確定的;現在兩個方向都不確定,例如究竟技術能夠發展到什么程度,更難的是判斷技術在未來六個月能夠發展到什么智能水平;研發產品需要有一些超前思維,若基于現有技術做產品,可能下一代技術出來的時候會顛覆現有產品。
所以產品經理最大的苦惱是如何在高度不確定的技術平臺上,構建一款新的產品,這可能是每個人都要思考的問題,也正因為如此,這個時代才是最好的時代。
周志峰:謝謝您的精彩分享。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.