99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

對話階躍星辰姜大昕:我們就是“多模態卷王”,這便是階躍沖擊AGI的方式

0
分享至


作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com

姜大昕和階躍星辰也是有野心的。

只不過這些野望藏在姜大昕習慣性追求“邏輯嚴謹”的表述里,不易察覺。而階躍星辰追求各個模態各種模型都不能錯過的技術布局,更讓這家公司此前在外界看來有點若隱若現。

事實上這家剛剛成立兩年的大模型公司,已發布了22款自研基座模型,從文字、圖像、到視頻、語音,以及音樂和推理等,且大多數為多模態模型。

5月8日,階躍星辰創始人和CEO姜大昕在階躍星辰北京辦公室分享了他最近的思考和階躍的研發更新。在他的PPT里,他把階躍的模型分成兩類,語言&推理,以及多模態。他稱其為階躍的Step系列模型矩陣。


“國內的大模型公司里面,像我們這樣重視模態的全覆蓋并且堅持原生多模理念的公司并不多,但階躍從一開始就始終認為多模態對通用人工智能非常重要。有一句話我也在很多場合不停的重復:我們認為多模態是實現 AGI 的必經之路。”

但這樣的全面有時候對圍觀者來說意味著重點模糊。在一個所有人為AI 焦慮的時期,缺少某一個“爆款”的模型,會讓圍觀的人們無法集中注意力。在姜大昕和階躍內部的判斷,這是他們從技術路線發展和行業現狀出發從第一天主動選擇的路線。在DeepSeek前后,許多AI公司大幅度掉頭,有的從應用轉回預訓練,然后在“預訓練撞墻”論流行后,許多公司又紛紛放棄預訓練,而階躍則基本上一直在把重心放在基礎模型側。

“追求智能的上限,我們認為這仍然是當下最重要的一件事。我們還是堅持基礎大模型的研發。”他說。階躍在最近還調整了此前推出的類ChatGPT的產品,姜大昕認為,這些是過渡期的一些嘗試,而“DeepSeek給我們的經驗就是,投流的邏輯實際上(對AI的c端產品來說)是不成立的”。

聽姜大昕分享,你會感覺即便是今天教授創業成風的AI領域,他也比其他人更像一個教授,追求一環又一環的邏輯推演。這種思考方式的一個典型表現是,他習慣于向AI的歷史演變里找答案,非常在意做一件事背后路線的判斷,會花很多時間尋找“主流的技術脈絡和共性的規律”。

在他看來,“模型的發展是沿著這樣一條智能演進的路線往前進化的:模擬世界、探索世界、歸納世界。”

他認為今天正在發生的“大勢”有兩個,一個已經完成,就是“推理模型從一個趨勢變成了一個范式,現在語言模型基本上是推理模型一統天下。”

而另一個還沒有統一答案的重要課題,則是多模態理解生成的一體化。其實更具體來說,在這個階段就是視覺領域的理解生成一體化。

“什么叫做理解生成一體化,它的定義是理解和生成是用一個模型來完成。”他說。文本模型諸如ChatGPT已經完成理解生成一體化,但視覺領域沒有。

“即使是對圖片,我們理解的時候用的是 GPT-4o 這樣的模型,或者是在階躍是用的 Step-1o。那么生成又換了其他的模型,比如說用 Flux、用 Stable Diffusion,階躍是用 Step image 這樣的模型。它是分開的。”

為什么一定要做理解生成一體化?姜大昕認為,簡單說就是“生成需要理解來控制,理解需要生成來監督”。

但與語言模型不同,多模態的復雜度要高出很多。

“所以在視覺領域我們還沒有一個很好的、很高效地表達這么一個連續的高維的連續空間的生成問題,所以我們只好理解的時候用了一個 auto-regression Model 是自回歸模型,生成的時候還得依賴 diffusion Model。”

為了解決這個視覺領域的“靈魂拷問”,目前有兩種主要方法,一是嘗試把這些高維的連續分布變成一個離散的像語言token的東西,但這個過程信息就丟失了,“從來沒有成功過”。第二種就是把auto-regression 的架構和 diffusion 的架構合在一起,但“也沒有做得很成功”。姜大昕認為這個問題目前還在探索的階段。

“你們的路線是什么?”我在交流現場問姜大昕。

“我可以說內部有多條技術路線,因為確實是不知道(哪個是最終的)。不謙虛地說,我們的技術人才儲備是很雄厚的,可以說大家是各執己見,我的意思就是你做出來才算,誰都可以做,所以是有多條路線在并發。”

這很容易讓人想到互聯網公司常用的賽馬機制,而這種機制背后某種程度往往也是人才的積累之爭。

這名前微軟全球副總裁創業后,ResNet作者之一的張祥雨、AI Infra專家朱亦博也先后加入階躍。去年12月,階躍星辰再次完成B輪數億美元融資。多個開源模型在開源社區獲得了不錯的反響。

這些是姜大昕的底氣。

而在他看來,視覺模型的一體化目前甚至還沒有到“Transformer 時刻”,今天依然沒有這個最合適的能規模化的架構,他形容目前很多方案是“膠水模型”,把多個模型拼湊起來的思路不會是最終的形態。而階躍希望自己能成為創造出視頻的Transformer 的那一個,要做到這一點,他給階躍設計的路線,就是成為多模態的卷王。


“我認同多模態卷王這個名字。”他認為理解和生成一體化是個非常綜合素質的一個考驗。“不是我們不夠focus,而是要做這件事就是需要非常綜合的才能做的出來。所以這也是我們的一個長項,因為我們所有的線能力都非常強,可以組合起來去探索。”姜大昕說。在交流中他也透露,階躍內部此前劃分的生成和理解兩個不同“部門”已經整合為一個“生成理解”團隊。

而在和大家聊了兩個小時后,姜大昕終于難得地透露出了野心。

“我們強調技術領先性,探索的是下一代領先的一體化模型,我們試圖在基礎模型上有代際的(領先),是代際的往前走。”

以下為姜大昕對話實錄,經簡單編輯。


由 Step1X-Edit 生成的姜大昕卡通風格圖片

硅星人:你剛才提到了視覺的理解生成一體化的兩種路線,而且效果似乎都不太好,階躍的路線是什么?

姜大昕:我可以說內部有多條技術路線,因為確實是不知道(哪個是最終的)。不謙虛地說,我們的技術人才儲備是很雄厚的,可以說大家是各執己見,我的意思就是你做出來才算,誰都可以做,所以是有多條路線在并發。

硅星人:你提到現在還沒到GPT-4的時刻,還是等待Transformer 的階段,那么你們是要做發明Transformer 的,還是等其他人發明后,你是做那個GPT4和ChatGPT的。

姜大昕:那肯定是做出Transformer 。

硅星人:那今天回頭看OpenAI,大家會感嘆Ilya像天才一樣早早認定了一個路線,但聽你的分享,目前視覺還不是這樣,還是多條路線。

姜大昕:我覺得OpenAI當時在 Transformer 出來之前肯定是有多條路線的。核心就是怎么把language model 做成scalable的架構。當時包括LSTM,GRU,各種各樣的架構,直到最后 Transformer 出來是大家認了,現在就相當于有人在探索LSTM,有人探索GRU,最后要出來一個大家都認的路線。

硅星人:繼續問的話,當初Transformer出來后,“認”它就是最終路線的人,決策的快慢也是不同的,最后也影響今天的格局,這還會再來一次么?

姜大昕:非常有意思,就是 17 年出來之后 ,Transformer 一統天下的不是GPT,是Bert。如果大家都在關注也知道,那時候的標題都是什么霸榜橫掃,當時做自然語言處理的話,就是 Bert 是吊打GPT的,而且GPT比Bert早出來幾個月。但Ilya有執念,他堅決認為沒有生成談不上理解,理解能力都是fake 的,只是一種模式的translation。但是從實際效果來說,我當時在做搜索,Bert確實好很多,甚至GPT3出來我們很佩服,但效果還是不好。直到ChatGPT出來,大家知道原來可以這樣做。

但這些語言模型發生過一遍的事情,整個邏輯的推進不用在視覺再來一遍。大家輕車熟路,就等著那個Transformer 什么時候出來,只要這一關突破了,后面就順利很多,不需要像語言模型那樣再從Bert到GPT到ChatGPT探索一次。

提問:人們此前在視覺領域最關注Sora,現在看起來它不是Transformer 級別的,那我們要怎么判斷OpenAI或者誰做到了。

姜大昕:有一天我看到它能predict the next frame,如果哪天OpenAI說推出了不叫Sora的一個視頻生成模型(就有希望)。

其實去年大家對Sora感到興奮的時候,我們非常失望。我們認為主線是理解生成一體化,但Sora沒有在這個路線走,走彎了。不過后來我們去想也有道理,一步走到太難了,所以要兩個獨立往前走,互相鋪墊,左腳踩右腳,比如Sora提到用GPT4o給數據打標,可能迭代幾輪會有不同。但總的路線是一體化,這個不解決,后面都不行。


硅星人:這比較抽象,有什么樣具體的任務可以用來判斷這個視覺的Transformer已經出現?

姜大昕我覺得首先就是它能夠無限地去生成,比如給它一個電影的開頭,它能夠一直往下編編編編編,而且大家覺得還挺有道理的。如果他能一直這樣做下去,而且consistent,要符合邏輯,符合物理規律。比如10分鐘的影片,它能一直往下走,而且合情合理,那我覺得就做到了。

問:階躍被稱為多模態卷王,不停發布模型,這背后是因為到了能發布的階段,還是因為有KPI?

姜大昕首先我認同多模態卷王這個名字。

那么為什么在外界看來我們是一個月就會發布一個模型?其實你如果仔細看那些模型,它是在不同線上,因為我們的布局特別完整,有聲音、有圖像,音樂模型,還包括語言,推理。其實每條戰線都是經過了幾個月甚至半年這樣一個積累,但如果你同時看眾多戰線的話,你就覺得一兩個月就有一個。

問:那如果說我們希望最終做出理解生成一體化的話,為什么我們不把所有的力量都集中去做它?

姜大昕非常好的問題。我們也想這樣做,但是不行。它是一個非常綜合素質的一個考驗。首先你要有一個非常Solid的語言模型,它現在已經進化到推理模型。然后要有視覺推理,是視覺理解的升級。然后還有生成端。

所以不是我們不夠focus,而是要做這件事就是需要非常綜合的才能做的出來。所以這也是我們的一個長項,因為我們所有的線能力都非常強,可以組合起來去探索。

提問:行業各種轉變,你們為什么一直堅持預訓練自研模型?

姜大昕:我覺得現在行業趨勢還是一個技術路線非常陡峭的趨勢。曾經震撼大家的GPT4,已經要下架了,Sora大家今天覺得有什么神奇,o3現在做的事情,可能明年又覺得沒什么。技術發展還是非常非常快,我們不愿意在這個過程缺席,放棄這個技術增長的機會。我們會堅持基礎模型的研發。

今天的格局里,我們是綜合型的,不是專注在AIGC這種的,我們不太一樣,不是專門做一個模態或者生成。我們強調技術領先性,探索的是下一代領先的一體化模型,我們試圖在基礎模型上有代際的(領先),是代際的往前走。


點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《碟中諜》1-8電影主要女主角梳理

《碟中諜》1-8電影主要女主角梳理

東方不敗然多多
2025-06-03 09:13:46
克星?德尚執教期間法國隊兩次在前30分鐘連丟兩球,對手都是西班牙

克星?德尚執教期間法國隊兩次在前30分鐘連丟兩球,對手都是西班牙

雷速體育
2025-06-06 03:49:18
樊振東向湖南家鄉祠堂捐20萬,竟被當地人指責:太少了,不是捐款

樊振東向湖南家鄉祠堂捐20萬,竟被當地人指責:太少了,不是捐款

八斗小先生
2025-06-05 20:11:32
她靠星光大道一炮而紅,卻因當小三前途盡毀,今37歲活成這樣

她靠星光大道一炮而紅,卻因當小三前途盡毀,今37歲活成這樣

明月聊史
2025-05-29 09:48:08
德媒頭條| 2025.06.05:德外長嚴厲批評以色列,法工人罷工拒絕向以發貨

德媒頭條| 2025.06.05:德外長嚴厲批評以色列,法工人罷工拒絕向以發貨

道德經
2025-06-06 00:56:05
四川一男子挖出一只宋代金碗,伸手撿的時候,聽到了“蛇”的叫聲

四川一男子挖出一只宋代金碗,伸手撿的時候,聽到了“蛇”的叫聲

南權先生
2025-06-05 10:04:37
江西退休教授娶38歲美女導游,次年生下雙胞胎后,教授發現家中監控

江西退休教授娶38歲美女導游,次年生下雙胞胎后,教授發現家中監控

呆子的故事
2025-06-01 12:42:04
重磅!已經決定!李月汝!

重磅!已經決定!李月汝!

左右為籃
2025-06-05 13:07:41
亞朵,擠滿了偷偷開房的中年女人

亞朵,擠滿了偷偷開房的中年女人

快刀財經
2025-05-20 22:21:25
體檢報告出現這幾個字,距離癌癥只有一步之遙!別等得癌了才后悔

體檢報告出現這幾個字,距離癌癥只有一步之遙!別等得癌了才后悔

人民日報健康客戶端
2025-06-03 22:24:11
新月再迎補強!巴薩巨星確定加盟,最大短板補上,C羅太難了

新月再迎補強!巴薩巨星確定加盟,最大短板補上,C羅太難了

祥談體育
2025-06-05 11:19:19
FIBA官方發問:成功防住一個回合能拿一百萬美元,你會選誰?

FIBA官方發問:成功防住一個回合能拿一百萬美元,你會選誰?

雷速體育
2025-06-05 18:05:36
普京可能自己都沒料到,本輪襲擊中抵抗最堅決的,是他的人民

普京可能自己都沒料到,本輪襲擊中抵抗最堅決的,是他的人民

荷蘭豆愛健康
2025-06-06 03:01:00
67歲張蘭做夢也沒想到,43歲二婚后的兒子,終于讓她不再操心了!

67歲張蘭做夢也沒想到,43歲二婚后的兒子,終于讓她不再操心了!

悠閑歷史
2025-06-05 11:12:03
爺爺把5套拆遷房全給了叔叔,我爸沒鬧,爺爺70大壽時眾人愣住了

爺爺把5套拆遷房全給了叔叔,我爸沒鬧,爺爺70大壽時眾人愣住了

七分瘦三分肥
2025-05-12 13:43:25
放假通知!中小學2025暑假時間確定了!家長卻表示難以接受…

放假通知!中小學2025暑假時間確定了!家長卻表示難以接受…

阿呆爸
2025-06-05 22:08:33
面相變了!49歲趙薇近照曝光,封殺四年、婚也離了,她變成了這樣

面相變了!49歲趙薇近照曝光,封殺四年、婚也離了,她變成了這樣

史行途
2025-04-16 13:30:43
新巴鐵誕生了?這國對世界宣告:中國若有難,自己定當赴湯蹈火!

新巴鐵誕生了?這國對世界宣告:中國若有難,自己定當赴湯蹈火!

小lu侃侃而談
2025-02-16 16:40:24
蒸發159億!蔚來的賬戶快見底了

蒸發159億!蔚來的賬戶快見底了

品牌頭版
2025-06-04 18:47:06
樸槿惠又出來了!這次她穿衣打扮更顯年輕,知己柳榮夏寸步不離

樸槿惠又出來了!這次她穿衣打扮更顯年輕,知己柳榮夏寸步不離

陳意小可愛
2025-06-05 08:56:14
2025-06-06 04:51:01
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
2236文章數 10341關注度
往期回顧 全部

科技要聞

對話盛景網聯彭志強:跳出SaaS虧損黑洞!從“賣工具”到“賣結果”的AI RaaS轉型法則

頭條要聞

特朗普:我要求馬斯克離開 馬斯克瘋了

頭條要聞

特朗普:我要求馬斯克離開 馬斯克瘋了

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經要聞

習近平同美國總統特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

旅游
房產
本地
公開課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

再奪荔灣銷冠!誰是主城改善標準制定者,終于有了答案!

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京明確:沒有人會與“恐怖分子”談判

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 巴青县| 曲阳县| 宜良县| 新竹县| 左权县| 穆棱市| 柯坪县| 韶关市| 思南县| 丰台区| 富源县| 靖边县| 和静县| 甘孜县| 彭水| 伊吾县| 手机| 阳泉市| 永登县| 刚察县| 华亭县| 吉安市| 景德镇市| 江北区| 沙洋县| 宁津县| 乳山市| 朝阳市| 秦皇岛市| 普格县| 从化市| 安阳县| 新巴尔虎右旗| 辉南县| 施秉县| 内江市| 孝义市| 阿克陶县| 读书| 南江县| 安康市|