99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

拿下38項第一!字節發布Seed1.5-VL多模態推理模型

0
分享至

在60個主流基準測試中拿下38項第一!

字節發布輕量級多模態推理模型Seed1.5-VL,僅用532M視覺編碼器+200億活躍參數就能與一眾規模更大的頂尖模型掰手腕,還是能帶圖深度思考的那種。

相關技術報告也第一時間公開了。



整體而言,雖然是“以小博大”,但新模型在復雜謎題推理、OCR、圖表理解、3D空間理解等方面表現出色。

比如猜下圖中有幾只貓,人眼很容易誤將地上的黑貓當成影子:



還能用來玩“看圖找茬”,速度和準確率雙雙勝于人類:



同時也能用來解答復雜推理謎題,考公黨有福了(bushi~



當然,以上也基于其強大的OCR識別能力。即便是長度驚人、中英混雜的消費小票,也能分分鐘轉換成表格。



除此之外,新模型還擅長處理Agent任務。它在GUI界面操作和游戲場景中,顯著優于OpenAI的CUA和Claude 3.7等模型。



那么它是如何做到的呢?

532M視覺編碼器 + 20B混合專家語言模型

通過深扒技術報告,背后關鍵主要在于模型架構訓練細節

據介紹,Seed1.5-VL由以下三個核心組件組成:

  • SeedViT:用于對圖像和視頻進行編碼;
  • MLP適配器:將視覺特征投射為多模態token;
  • 大語言模型:用于處理多模態輸入并執行推理。



模型支持多種分辨率的圖像輸入,并通過原生分辨率變換(native-resolution transform)確保最大限度保留圖像細節。

在視頻處理方面,團隊提出了一種動態幀分辨率采樣策略(dynamic frame-resolution sampling strategy),能夠根據需要動態調整采樣幀率和分辨率。

此外,為了增強模型的時間信息感知能力,在每幀圖像之前引入了時間戳標記(timestamp token)

這些設計讓模型能夠高效處理各種多模態數據,包括文本、圖像和視頻等。

而基于上述架構,團隊接著開始了模型訓練。

首先,團隊使用了3萬億個多樣化且高質量的多模態標注,這些數據是根據模型需要發展的特定能力來組織和分類的。



其預訓練過程分為三個階段:

  • 階段0:僅訓練MLP適配器,以對齊視覺編碼器和語言模型;
  • 階段1:訓練所有模型參數,重點是掌握視覺定位和OCR能力;
  • 階段2:增加數據多樣性,擴展序列長度,以適應視頻理解和復雜推理任務。

值得一提的是,團隊在預訓練階段觀察到了——

大多數子類別的數據訓練損失與訓練標記數量之間遵循冪律關系,即訓練損失隨著訓練標記數量的增加而減少。

此外,某一子類別的訓練損失與該類別對應的下游任務評估指標之間呈現對數線性關系(例如:評估指標 ~ log(訓練損失))的趨勢,尤其在局部區域內尤為顯著。

后者意味著,可以通過訓練損失來一定程度上預測模型在下游任務上的表現。



接下來團隊又進行了后訓練,使用了監督微調和強化學習等技術。

其一,使用高質量的指令數據對模型進行微調,包括一般指令和長鏈推理(Long CoT)數據;

其二,結合人類反饋和可驗證獎勵信號,通過PPO算法進行訓練,以提高模型的對齊能力和推理能力。

需要注意的是,團隊在后訓練采用了結合拒絕采樣(rejection sampling)和在線強化學習(online reinforcement learning)的迭代更新方法。

他們構建了一條完整的數據pipeline,用于收集和篩選復雜提示,以增強后訓練階段的數據質量。

并且在強化學習過程中,監督信號通過獎勵模型和規則驗證器(rule verifiers)僅作用于模型生成的最終輸出結果。

也就是說,團隊特意避免對模型的詳細鏈式思維推理(chain-of-thought reasoning)過程進行監督。



最后,為了支持大規模預訓練和后訓練,團隊還開發了一系列優化技術

  • 混合并行化:針對視覺編碼器和語言模型的不同特點,采用不同的并行策略;
  • 工作負載平衡:通過貪心算法重新分配視覺數據,平衡GPU工作負載;
  • 并行感知數據加載:減少多模態數據的I/O開銷;
  • 容錯機制:使用MegaScale框架實現容錯,確保訓練的穩定性。

這些技術顯著提高了訓練吞吐量,并降低了硬件成本。

60項測試中拿下38項SOTA

那么其實際表現如何呢?

實驗結果顯示,新模型在60項公開基準測試中取得了38項新SOTA,其中包括19項視頻基準測試中的14項,以及7項GUI智能體任務中的3項。

部分測試結果如下:



單拎出多模態智能體任務來看,它在多個GUI任務上,優于OpenAI的CUA和Claude 3.7等現有模型。



在多個游戲中,它也展現出強大的推理和決策能力。



與此同時,在內部測試中,新模型尤其在視覺推理、文檔理解、3D空間理解等方面表現出色。



光看測試結果可能還不夠,我們最后也來簡單實測一下。

比如玩最近很火的“看圖找地理位置”,隨意一張游客照也能正確推理識別。



鑒于圖中有燈塔這種可能容易暴露地標的元素,我們再換張難度更高的。



在無明顯標識的情況下,o3曾因猜出的位置距離正確答案(加州埃爾格拉納達附近的一家露天酒吧里)僅相差200-300公里而出圈。

而Seed1.5-VL最后的答案是加州沿海地區(比如蒙特雷縣、圣巴巴拉周邊的小鎮)



這兩個地點距離正確位置分別為160公里和440公里,和o3的表現已經相當接近。



不過最后需要提醒,團隊表示新模型仍存在一些局限性,尤其是在細粒度視覺感知、三維空間推理以及復雜組合搜索任務方面。

目前新模型可在Hugging Face在線體驗,歡迎大家評論區分享討論~

在線體驗:
https://huggingface.co/spaces/ByteDance-Seed/Seed1.5-VL
論文:
https://arxiv.org/abs/2505.07062
GitHub:
https://github.com/ByteDance-Seed/Seed1.5-VL

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
微軟大裁員,賠償達N+8,上海12年老員工感嘆:拿20個月工資走人,每月3000失業補助,也是種幸福

微軟大裁員,賠償達N+8,上海12年老員工感嘆:拿20個月工資走人,每月3000失業補助,也是種幸福

深度知局
2025-05-11 18:00:48
王子文北京帶娃被拍,11歲兒子還沒160長得很壯實,母子倆像姐弟

王子文北京帶娃被拍,11歲兒子還沒160長得很壯實,母子倆像姐弟

八怪娛
2025-05-14 16:43:40
未來10天!暴雨、雷暴大風!湖南省應急委辦公室發布汛情提醒!

未來10天!暴雨、雷暴大風!湖南省應急委辦公室發布汛情提醒!

魯中晨報
2025-05-14 17:32:05
閨蜜帶我體驗異性理療,嘗試后我深陷其中無法自拔…

閨蜜帶我體驗異性理療,嘗試后我深陷其中無法自拔…

深夜解密局
2025-04-16 12:39:55
小米SU7被大貨車卷入車底碾軋報廢,車機“小愛同學”仍可正常使用

小米SU7被大貨車卷入車底碾軋報廢,車機“小愛同學”仍可正常使用

瀟湘晨報
2025-05-13 21:53:18
當初被認為巨虧交易,現在卻大賺!還省4000萬,森林狼GM眼光真獨

當初被認為巨虧交易,現在卻大賺!還省4000萬,森林狼GM眼光真獨

你的籃球頻道
2025-05-14 14:49:19
重大利好!A股牛市越來越近

重大利好!A股牛市越來越近

風風順
2025-05-14 12:55:59
埃弗拉:弗爵現在執教會進監獄,當年怒罵納尼"你的腿最好真斷了"

埃弗拉:弗爵現在執教會進監獄,當年怒罵納尼"你的腿最好真斷了"

直播吧
2025-05-14 19:56:45
并非2年0冠,曝利雅得終止C羅續約,發生沖突,誰注意C羅舉動

并非2年0冠,曝利雅得終止C羅續約,發生沖突,誰注意C羅舉動

東球弟
2025-05-14 15:24:19
特朗普對華開出條件:取消稀土限制,對美開放市場?中方反將一軍

特朗普對華開出條件:取消稀土限制,對美開放市場?中方反將一軍

關山快訊
2025-05-14 18:08:59
國企出手?趙繼偉被盯上,遼寧麻煩再現

國企出手?趙繼偉被盯上,遼寧麻煩再現

體育籃球弟
2025-05-14 15:50:03
4種茶葉已被列入“傷肝名單”,喝多了或傷肝!再愛喝也要管住嘴

4種茶葉已被列入“傷肝名單”,喝多了或傷肝!再愛喝也要管住嘴

平祥生活日志
2025-05-07 16:36:28
知名品牌銷量再次暴跌!僅一款車型過萬

知名品牌銷量再次暴跌!僅一款車型過萬

經理人雜志
2025-05-13 10:14:16
銀行新規,全國已開始實施,以后,死者的存款不再受銀行的氣!

銀行新規,全國已開始實施,以后,死者的存款不再受銀行的氣!

巢客HOME
2024-12-04 07:25:03
F35凌晨入侵,殲16緊急升空,纏斗10分鐘后,美機轉頭就跑

F35凌晨入侵,殲16緊急升空,纏斗10分鐘后,美機轉頭就跑

深藍航跡
2025-05-11 13:22:03
果然出事了!中方擔憂成真?第3國確認出手,南部戰區點名警告

果然出事了!中方擔憂成真?第3國確認出手,南部戰區點名警告

傲氣經說
2025-05-12 11:49:44
北京市高校排名大調整:北航第7,首醫第20,電科院第54

北京市高校排名大調整:北航第7,首醫第20,電科院第54

戶外釣魚哥阿勇
2025-05-14 09:01:42
那個篡改歷史、顛倒黑白的“俄粉”終于被禁言了

那個篡改歷史、顛倒黑白的“俄粉”終于被禁言了

玖奌雜貨鋪
2025-05-11 23:38:23
云南一律所回應“招實習律師要求本科生游戲段位達王者”:很多同事愛玩,促進團隊協作

云南一律所回應“招實習律師要求本科生游戲段位達王者”:很多同事愛玩,促進團隊協作

瀟湘晨報
2025-05-14 15:50:12
奇恥大辱,桑普多利亞隊史首次降入丙級聯賽

奇恥大辱,桑普多利亞隊史首次降入丙級聯賽

懂球帝
2025-05-14 05:09:15
2025-05-14 20:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10478文章數 176140關注度
往期回顧 全部

科技要聞

騰訊一季度營收1800億同比增13% 凈利478億

頭條要聞

國補版iPhone 16 Pro被搶空上熱搜 授權店:可能還會降

頭條要聞

國補版iPhone 16 Pro被搶空上熱搜 授權店:可能還會降

體育要聞

NBA最被低估球員,帶隊爆殺東部第一

娛樂要聞

趙麗穎趙德胤戀愛時間線被扒!

財經要聞

4月M2同增8% 前4個月存款增加12.55萬億

汽車要聞

配獵鷹駕駛輔助系統/軸距超3米 風云A9L預計6月交付

態度原創

家居
時尚
手機
公開課
軍事航空

家居要聞

簡約端莊 現代美學體驗

女人夏天別總穿黑白灰,試試“藍色系”穿搭,清爽減齡又耐看

手機要聞

小米16系列再次被確認:內部架構有大變化,畫質做了一致性調教

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國與沙特簽署1420億美元軍售協議

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洪泽县| 博兴县| 三穗县| 闻喜县| 苍山县| 宁强县| 如皋市| 镇康县| 酉阳| 驻马店市| 黑水县| 云林县| 芮城县| 墨脱县| 阿拉尔市| 阿瓦提县| 皋兰县| 焉耆| 商洛市| 江城| 城市| 奈曼旗| 沅江市| 宣恩县| 永平县| 谢通门县| 孟州市| 卫辉市| 寻乌县| 杨浦区| 长沙县| 镶黄旗| 卢龙县| 同德县| 江孜县| 来宾市| 汝南县| 崇信县| 东台市| 田阳县| 金湖县|