網易首頁 > 網易號 > 正文申請入駐

顏水成領銜，給AI分段位！超100款多模態模型，無人達到L5

2025-05-19 12:51:43　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRS

【新智元導讀】理想中的多模態大模型應該是什么樣？十所頂尖高校聯合發布General-Level評估框架和General-Bench基準數據集，用五級分類制明確了多模態通才模型的能力標準。當前多模態大語言模型在任務支持、模態覆蓋等方面存在不足，且多數通用模型未能超越專家模型，真正的通用人工智能需要實現模態間的協同效應。

得益于大語言模型強大的文本理解與生成能力，用戶可以用「自然語言」來操控其他模態的模態，比如用文本生成圖片、視頻等。

之前的多模態大語言模型（MLLM）更傾向于專用，比如只能用于某一種模態，或只能用于訓練指定的任務，最近的研究趨勢開始向多模態通才（Multimodal Generalist）范式轉變，不僅能理解多種模態，還能跨模態生成內容，甚至支持任意模態。

為了評估多模態大語言模型的能力，研究人員推出了各種各樣的基準測試集以供模型刷榜。

但是，能否簡單地認為，在各項任務中表現更好的模型，就說明具備更強的多模態通用能力，從而更接近人類水平的人工智能呢？

想要回答這個問題，可能沒有想象中那么簡單。

最近，來自新加坡國立大學（NUS）、南洋理工大學（NTU）、浙江大學、北京大學、南京大學、武漢大學、上海交大等十所頂尖高校聯合發布了一個評估框架General-Level和一個龐大的基準數據集General-Bench，用305頁論文，明確了多模態通用智能體在不同發展階段應該具備的能力和行為。

論文鏈接：https://arxiv.org/pdf/2505.04620v1

項目主頁：https://generalist.top

排行榜：https://generalist.top/leaderboard

基準：https://huggingface.co/General-Level

General-Level建立了五個層級的多模態大語言模型性能和通用性標準，提供了一種方法來比較多模態大語言模型，并衡量現有系統向更強大的多模態通用智能體以及最終向通用人工智能（AGI）發展的進程。

框架的核心是使用「協同泛化效應」（Synergy）作為評估標準，根據多模態大語言模型在理解與生成過程中，以及在多模態交互中是否保持協同性來對能力進行分類。

General-Bench涵蓋了比以往基準更廣泛的技能、模態、格式和能力，包括超過700項任務和325800個樣本，對100多個現有的最先進的多模態大語言模型的評估結果顯示了這些通用智能體的能力排名，總結出了當下模型與真正人工智能相比仍有哪些不足。

General-Level：多模態通才的五級分類

多模態發展過程

觀察1：多模態理解 vs. 同時進行多模態理解和生成

最初階段，多模態大語言模型（MLLMs）的回復僅限于基于用戶提供的多模態輸入生成文本輸出；后續的多模態大語言模型不僅具備多模態理解能力，還能在各種模態之間生成、編輯內容。

觀察2：支持更廣泛的模態

多模態通才需要廣泛支持和處理多種模態數據，包括但不限于文本、圖像、視頻、音頻，甚至是三維數據，支持的模態范圍反映了一個人工智能系統能力的廣度。

到目前為止，多模態模型可以將圖像與視頻結合、視頻與音頻結合等，最先進的模型甚至可以處理任意模態。

觀察3：支持各種任務和范式

多模態通才必須能夠處理各種不同定義和要求的任務，來提高整體的多功能性。

例如，早期的視覺多模態大語言模型只能進行粗粒度的圖像理解，后續發布的模型能夠實現細粒度、像素的圖像/視頻定位和編輯等。

模型的解碼組件也必須足夠靈活，能夠以各種任務格式生成輸出，處理不同類型的任務，例如目標定位、像素級修改以及多模態內容創作。

觀察4：多模態智能體與多模態基礎模型

剛開始的多模態智能體，就是大語言模型通過調用外部工具和模塊（通常是專用模型）來執行特定的多模態任務。

后續的研究重點逐漸轉向構建聯合多模態大語言模型，其中大語言模型與其他模塊（如多模態理解組件和多模態生成組件）通過共享嵌入空間緊密集成。

五大分類

判斷一個多模態通用模型是否更強大，不能簡單地等同于在基準測試中獲得更高的分數，或者與其他模型相比支持盡可能多的多模態任務。

一個極端的反例是，雖然理論上可以通過組合所有單一模態的最先進的專業模型來創建一個「超級智能體」，但這種簡單的聚合并不能實現真正的通用人工智能（AGI）。

理想中的多模態通用模型應該是一個類似OpenAI的ChatGPT系列的多模態版本，不僅在各種模態的任務表現上超越最先進的專業模型，還展現出卓越的跨任務、跨理解與生成以及跨模態的泛化能力。

換句話說，從某些任務、技能和模態中學到的知識應該能夠遷移到其他任務、技能和模態中，從而產生一種協同效應，使得整體效果超過各個部分的總和，實現「1+1>2」的效果。

General-Level借鑒了自動駕駛分級評估的思路，以五個段位（Level 1-5）對多模態通用模型的智能水平進行評定。

段位越高，表示模型展現的通才智能越強。

與傳統只看任務分數不同，General-Level引入了協同泛化效應（Synergy）作為評分核心，具體從三個層次評估模型的協同能力：

?任務級協同（Task-level Synergy）：「任務-任務」的協同效應。模型能否在不同任務之間實現知識遷移？例如，在圖像分類上學到的特征是否有助于目標檢測任務。這是最低級別的協同要求。

? 范式級協同（Paradigm-level Synergy）：「理解-生成」的協同效應。模型是否能跨任務范式（理解類任務與生成類任務）保持均衡且互相提升的性能？例如，一個模型既能看圖回答問題（理解類），又能根據圖像生成描述（生成類），且兩種能力互不拖后腿。

? 模態級協同（跨模態總協同, Cross-modal Synergy）：「模態-模態」的協同效應。模型是否能在不同模態之間實現真正的融會貫通？也就是說，視覺、語言、音頻等各模態的知識能否互相強化，達到整體大于部分之和的效果。

等級1：專家型模型（Specialists）

針對特定任務或特定模態的數據集進行微調，可以看作是針對特定任務的專家模型，包括各種學習任務，例如語言或視覺識別、分類、生成、分割、定位、圖像修復等，比如CLIP，Stable Diffusion等。

等級2：支持多任務的通才（Generalists of Unified Comprehension and Generation）

模型從專用模型轉變為通用模型，需要讓系統能夠適應各種任務建模方式，支持多種模態類型和輸入格式，同時處理各種模型類型和輸出格式（可用于理解或生成）。

目前，最流行且廣泛采用的做法是以大語言模型（LLM）作為核心/智能媒介，整合各種專業模型來構建通用模型，通過現有的編碼和解碼技術整合各種模型，從而實現多種模態和任務（比如理解和生成任務）的融合與統一。

等級3：出現任務級協同的通才（Generalists with Synergy in Comprehension and/or Generation）

要從普通的通用模型提升到第3級，系統必須展現出跨任務的協同能力，使得至少兩個任務（無論這兩個任務是理解類的還是生成類的，都能夠共享特征并實現相互性能提升。

實現跨任務協同最直接的方法是通過多任務聯合訓練，保留每個任務特定特征的同時，維持任務共享的通用特征而不出現性能下降，并且模型必須支持盡可能多的任務之間的協同，并確保這種協同效應足夠顯著，以達到第3級的更高評估標準。

等級4：范式級協同的通才（Generalists with Synergy across Comprehension and Generation）

如果一個通用智能體能夠達到第4級，也就意味著該系統不僅具備強大的理解能力，而且在進一步學習和訓練生成能力時仍能保持基礎性能，比如Morph-Token分離出視覺重建損失用于生成學習，以避免與理解學習損失相互干擾。

要達到第4級，通用智能體必須先在單一模態和多模態的情況下實現統一的理解和生成能力，同時系統必須滿足其理解和生成能力能夠相互協同并增強彼此的要求。

從技術角度來看，獲得生成能力比獲得理解能力更具挑戰性，大多數視覺語言模型的視覺理解能力通常比視覺生成能力要強得多。

等級5：模態級全協同的通才（Generalists with Total Synergy across Comprehension, Generation and Language）

第5級是通用智能體的最終目標，從某些模態的任務中學到的特征、知識甚至智能可以在一定程度上遷移到其他支持的模態任務中。

目前，大多數多模態通用智能體受到架構發展的限制，主要通過語言智能來支持其他模態的智能，要想真正達到第5級，必須實現所有模態之間的協同。

從技術角度來看，通用智能體必須具備推理能力，即能夠對所有內容進行推斷和泛化，并且需要在推理過程中確保模態無關的上下文一致性。

General-Bench：多模態通才基準

設計準則

目前僅根據性能對多模態大語言模型（MLLMs）進行排名的基準測試存在局限性，嚴重阻礙了多模態通用智能體的發展。

幾乎所有的現有基準測試都集中在評估多模態大語言模型在視覺模態（尤其是圖像）上的能力，而嚴重忽視了視頻、音頻、三維等其他模態的任務，并且評估過程通常假設多模態大語言模型已經具備了令人滿意的自然語言處理能力，忽略了對語言能力的評估。

同時，基準測試往往只是簡單地將自由形式的預測轉換為預定義選項的固定問答格式，本質上是一種妥協，無法以特定格式生成的任務仍然可以被執行。

研究人員認為，真正的多模態通用智能體應該支持任務的原始格式。此外，大多數基準測試僅評估多模態大語言模型對視覺信息的理解能力，然而，多模態通用智能體應該具備超出理解之外更廣泛的能力，例如生成、編輯等，所以目標基準測試需要具備以下特點：

涵蓋盡可能廣泛的任務、技能和模態：包括文本、圖像、視頻、音頻、三維等多種模態。
包含理解和生成任務：不僅評估模型對信息的理解能力，還評估其生成內容的能力。
包含豐富多樣的任務：覆蓋各種場景和領域的任務，以全面評估模型的能力。
保留原始任務預測格式：避免將任務簡化為固定格式，以更真實地反映模型的能力。
及時維護和動態擴展數據集：確保基準測試能夠適應不斷變化的需求和技術進步。

數據收集

General-Bench基準涵蓋了多種領域和學科，包括物理科學（例如物理學、數學、幾何學、生物學）和社會科學（例如人文科學、語言學、歷史學、社會科學）中的28個主要領域，對通用智能體的技能和能力的評估分為通用的模態無關能力和特定模態的技能。

模態無關能力全面涵蓋了12個類別，例如內容識別、常識知識、推理能力、因果關系判斷、情感分析、創造力和創新能力等。

對于特定模態的技能，研究人員明確列出了每個模態在理解和生成方面的主要能力，對應于數據集中的元任務（技能）。

General-Bench中的任務和數據量遠遠超過了當前的基準測試，覆蓋了最廣泛的學科領域，并支持最多的模態種類，包含130種多模態技能，涵蓋702項任務，涉及各種格式和領域的超過325800個標注，同時支持原始自由形式的任務預測。

排行榜

由于數據集規模龐大，如果按照General-Level來評估非常耗時且成本高昂，且大部分模型尚未達到框架中所設想的模態和任務覆蓋能力。

研究人員設計了一個分層的排行榜，劃分為四個難度遞增的范圍：

范圍A：全模態排行榜，涵蓋所有模態和任務，專為功能強大的通用多模態模型設計，覆蓋「General-Level」中的所有層級，最具挑戰性。

范圍B：特定模態排行榜，每個排行榜專注于單一模態或部分聯合模態，除語言模態外，為每個模態設計1個獨立的排行榜。

范圍C：專注于單一模態內的理解或生成任務，包括8個排行榜（2×4，分別對應多模態任務中的理解和生成，參與門檻較低。

范圍D：在每個模態內，針對特定技能（任務簇）的更細粒度排行榜，專為部分通用智能體設計，包含大量具體的排行榜，參與難度最低。

實驗結果

有了上述評估標準，作者使用其構建的龐大的General-Bench基準對當前主流的100多種多模態大模型進行了全面測評（作者注明，截止到24年年底時的模型評測結果，可能會受限于當時的版本情況以及數據情況）。

結果揭示出耐人尋味的現狀：絕大部分模型停留在Level 2到Level 3之間，能夠晉升到四段及以上的鳳毛麟角，五段級別更是尚無一例。這一分布說明，目前的多模態模型雖已有「一專多能」的雛形，但要真正邁向高段通才智能仍面臨巨大挑戰。

具體來看，很多模型都成功跨過了一段（畢竟專才模型本身不在我們關注的通才之列），達到了Level 2。這意味著它們具備一定的多任務多模態能力。但停留在Level 2的模型缺乏協同效應：它們在每項任務上或許表現不錯，卻沒能在任何一項上超越單任務SOTA。

這反映出目前多數MLLM雖然「什么都能做一點」，但還沒有「哪方面因為通才身份而更強」。

例如，Unified-io-2-XXL模型在評測中被歸為Level 2的冠軍位置。作為強大的視覺多模態大模型，它在非常多的視覺理解上都有不俗表現，然而和各領域頂尖專門模型相比并無明顯優勢，因而暫未體現出足夠明顯的協同增益。

觀察1：任務支持不足

大多數多模態大語言模型（MLLMs）在基準測試中對廣泛任務的支持度存在明顯不足，即使是GPT-4V和GPT-4o模型所能支持的任務也很有限，僅支持271項圖像理解任務中的177項，占比65.1%，而開源模型InternVL2.5-8B在圖像理解任務中的支持率達到71%，其他模態如視頻、音頻和3D，任務支持率更低。

只有Vitron-V1支持超過90%的圖像任務，而Sa2VA-8B在視頻理解組中的支持率達到72.2%，所以當前的模型需要在架構設計上進行顯著改進，以支持盡可能多的任務。

觀察2：很少有「通才」能超越頂尖「專家」

最先進的專家模型（SoTA specialist）性能要比通用模型更好，各種多模態大語言模型能夠超越專家模型的任務和技能非常有限。

例如，閉源模型（如GPT-4V、GPT-4o、Gemini-1.5和Claude-3.5）的勝率最高，超過30%；開源模型Qwen2-VL-72B在圖像理解任務中超越專家模型的比例最高，達到36.4%

在視頻、音頻、3D和語言等其他模態中，超越專家模型的機會更低，結果意味著通用模型尚未滿足成為多模態通才所需的跨任務/能力協同的基礎條件。

觀察3：更注重內容理解而非生成

GPT-4V和GPT-4o在某些圖像理解任務的特定技能上比專家模型表現得更好，而且這種提升比其他模型更為顯著，但這兩個模型僅限于圖像理解任務，對圖像生成任務完全不支持。

這種趨勢在其他模態中表現得更加明顯，支持多模態理解的模型數量遠遠超過支持多模態生成的模型。

觀察4：對所有模態的支持不足

多模態大語言模型無法同時支持所有模態，模態的關注度圖像 > 視頻 > 3D > 音頻，只有少數多模態通才包含所有模態。

觀察5：多模態并未真正增強語言能力

理想的多模態通才應該能夠在不同模態之間實現相互增強，但當前的多模態大語言模型并沒有在自然語言處理（NLP）任務中取得改進。

并且，多模態大語言模型在NLP任務中取得了一定的分數，但還沒有能夠超越NLP領域的專家模型，比在其他模態上觀察到的差距更大。

現有的多模態大語言模型盡管以語言為中心的大型語言模型（LLM）為核心，但由于過度專注于非語言模態的訓練和微調，其語言能力已顯著削弱，不僅削弱了語言理解能力，也無法利用多模態信息來增強與語言相關的任務。

案例分析

為了更直觀地理解General-Level的評估結果，研究人員選擇了三個具有代表性的多模態模型：GPT-4o，InternVL2.5和Unified-io-2-XXL。

前者是OpenAI的旗艦多模態模型，將強大的GPT-4語言能力擴展到視覺領域；后者則分別是國內、國外開源社區推出的代表性的SoTA多模態模型，在訓練中融合了多種視覺語言任務。

它們在General-Level排行榜上的表現，可以作為當前閉源與開源通才模型的一個縮影。

上圖展示了General-Level評測Leaderboard中不同段位的模型（Top-Ranking）分布概覽，其中也標出了GPT-4o，InternVL2.5以及Unified-io-2-XXL的所在段位和排序。

可以看到，Unified-io-2-XXL在Level 2中表現出最為驚艷的位置，得分最高；然而可惜，其僅僅停留在Level 2，這說明它具備多模態多任務能力，但未表現出協同效應，因而停留在「無協同」的通才層次。

而GPT-4o以及InternVL2.5晉升到了Level 3（紫色平臺區域），意味著它在一些任務上實現了協同增益，相比純粹堆疊能力的模型更進一步。

并且可以看到，InternVL2.5也比GPT-4o排位稍微靠前，原因在于，InternVL2.5比GPT-4o表現出了更顯著的跨任務協同泛化能力。

排行榜還揭示出多數模型扎堆于Level 2-3，只有極少數攀上Level 4頂峰，Level 5則依然高懸無人問鼎。

這一對比反映了幾類典型現象：

首先是「偏科」問題：Unified-io-2-XXL擁有超強的語言理解和生成能力，但在視覺任務上并未超過專門的視覺模型，因此它的總成績受到短板制約，只能處于二段。

GPT-4o、InternVL2.5通過多任務訓練或者MoE技術，在特定視覺任務上超過了單模態SOTA，表現出協同效應，但它可能在其他任務上并不突出，尤其跨范式能力（如生成長文本描述）可能相對弱，使其難以更上一層樓。

結果揭示了當前多模態模型常見的協同不足：要么擅長A類任務、平平無奇于B類任務，要么精于視覺、弱于語言，各項能力沒有實現真正的融會貫通。

其次，從這兩個案例我們可以體會到General-Level評估的價值所在。如果沒有這樣一套段位標準，GPT-4o憑借其強大的綜合表現，可能被直觀認為是「最先進的通用多模態AI」之一。

然而General-Level告訴我們，它在「通才」榜單上并未取得頂尖名次，反而暴露出協同方面的不足。

同理，InternVL2.5、LLaVA-One-Vision-72B等模型雖然參數規模和知名度不及GPT4旗艦系列，但通過協同效應加持，在某些維度上實現了對前者的追趕乃至超越。

這種新的比較視角非常重要：研究者和業界不能只關注模型在某單項任務上的最高分，而需要關注模型能力結構是否均衡、是否在通才方面有內在提升。

General-Level提供的排行榜截圖和數據，使我們能夠一目了然地發現模型的短板與長處，找出「偏科生」和「全面發展生」。

當然，每個模型的絕對段位受諸多因素影響，General-Level評分本身也有一定復雜性（比如評分采用了掩膜策略和加權調和平均等技術細節）。

但總體而言，這套評估體系成功地揭示了當前模型在通才智能上的差距與潛力。

對于模型研發者而言，這樣的可視化對比能夠幫助分析：我的模型離下一段還差在哪些方面？需不需要在弱勢任務上加強訓練，以避免短板效應？是否應該引入新的策略來實現跨模態的知識共享？

通過這些反思，研究者可以更有針對性地改進模型，朝著更高段位的通才智能邁進。

全面的多模態通用大模型生態

General-Level不僅是一個評估指標體系，背后還構建了完善的多模態通用大模型項目生態，方便社區廣泛參與和持續迭代。

作者團隊提供了完整的評測工具和數據，包括代碼庫、基準數據集、在線排行榜等，使得任何有多模態模型的團隊都可以方便地測試并獲取自己的「段位」。

在論文發表同時，作者團隊已開源了全部數據和評測套件代碼，希望更多研究者參與進來，共同完善這一評測框架。

目前團隊在其項目主頁上給出了非常完全的配套生態（包括評測套件包、項目文檔），相信所有想要參與的童鞋都可以方便地接入。

具體來說，項目開源了用于計算General-Level得分的評估代碼（GitHub倉庫），以及龐大的General-Bench數據集。General-Bench涵蓋了700+項任務、超過32萬條數據，是目前涉及模態和技能最全面的多模態基準之一。

值得一提的是，作者將數據集分為開放集和封閉集兩種版本：開放集（Open-Set）公布了所有輸入和標簽，便于研究者在本地自由使用、復現實驗；封閉集（Close-Set）則只提供輸入數據，標簽保密，用于官方排行榜評測。這種設計類似Kaggle比賽，有助于防止刷榜，同時又給予學術界充分的使用便利。

為了降低參與門檻，General-Level設置了多個分榜單（Scope-A/B/C/D），針對模型能力覆蓋不同范圍進行分類評測。

例如，Scope-A要求模型覆蓋所有模態和任務，是難度最高的「全能英雄」榜；Scope-B聚焦單一模態內的通才，如圖像模態下各任務集合；Scope-C按理解與生成兩種任務范式拆分評比；Scope-D則細分到VQA、字幕生成、語音識別等具體技能。

這種四層次榜單設計既確保了頂尖模型有用武之地，也讓早期或輕量模型能找到合適的舞臺參與評測。無論你的模型目前能力范圍如何，都可以選擇匹配的榜單來檢驗自身通才水準，從而循序漸進地提升「段位」。

除了數據和代碼，項目還搭建了在線Leaderboard排行榜網站，實時展示各模型在不同榜單下的段位排行和得分情況。

研究者只需按照評測工具對自己的模型跑完開放集數據，得到結果后提交到官網，即可獲取模型的官方段位認證和排名。

這種公開排行榜不僅帶來榮譽競爭，更重要的是營造了一個社區協作的平臺。任何團隊都可以瀏覽排行榜，了解當前最強的模型有哪些、各自的短板如何，從而思考改進方向。

社區還鼓勵大家提供新的數據集加入General-Bench、分享模型心得，形成良性循環。

作者團隊甚至在HuggingFace上創建了項目專頁和互動空間，方便AI愛好者試用和討論。

通過開放評測和社區驅動，General-Level項目正逐漸形成一個開放生態系統：評測標準統一透明，數據持續擴充，榜單動態更新，吸引越來越多的研究者投入「通才智能」的挑戰。

正如作者所言，他們希望General-Level能成為多模態AI領域的評價基礎設施，推動整個社區在一個共同坐標系下加速前進。

作者團隊

該項目由來自多個知名高校和研究機構的跨國團隊合作完成，陣容十分龐大（超過30位co-author成員+20多位未co-author的貢獻者），皆來自國內外知名的專注于多模態大模型相關課題的高校和實驗室，如新加坡國立大學（NUS）、南洋理工大學（NTU）、浙江大學、阿卜杜拉國王科技大學（KAUST）、北京大學、上海交大、羅切斯特大學。

作者全員都在多模態內容理解、生成領域有深厚積累。

論文的第一作者、整個項目的主導者費豪博士是NUS的高級研究員，在此前領銜開發過NExT-GPT、Vitron等較為知名的通用多模態大模型；

其他核心Team Co-leader包括周源博士、李俊成博士、李祥泰博士、徐青山博士、李波波博士、吳勝瓊博士，都在多模態、計算視覺、自然語言處理等領域有深厚積累；

項目由最近回國學術界的NUS的顏水成教授、NTU的張含望教授領銜通訊指導，由多模態學習資深專家蔡達成教授和羅杰波教授承擔項目顧問。

有意思的是，如此規模、資深團隊聯合攻關，在一定程度上亦體現了「通才AI」這一課題的前沿性和廣泛關注度。

總結與展望

從研究背景上看，General-Level的思路與過去AI領域的一些想法一脈相承。例如，在自動駕駛領域，人們常用L1-L5等級來描述車輛智能駕駛的成熟度；在圍棋等游戲中，段位評級更是由來已久。

將這種分級評測引入AI多模態通才，是一個水到渠成的創想。

而具體到實現上，作者團隊面臨的難點在于如何量化協同效應。正如論文所述，嚴格來說要證明協同效應，需要比較模型同時學習A和B任務時的表現與分別學習時的表現。

但由于通才模型往往是在海量任務上聯合訓練過，無法簡單剝離開來重新訓練對照。

為此，作者采取了折中策略：以「超越單項SOTA」作為協同效應的判斷依據。雖然這種方法并非完美精確，但在實踐中可操作且直觀有效，最終成就了General-Level評估體系的落地。

通向多模態通才AI的道路充滿挑戰，而General-Level五級評估體系的推出無疑是一個里程碑式的進展。

它為我們提供了統一的語言去討論和衡量多模態模型的智能水平，將過去碎片化的任務指標提升到「協同效應」這一更宏觀的視角。通過General-Level，我們可以明確地指出某模型是哪一級的「通才」，找出其短板與差距，從而有針對性地改進。

這種評估體系有望成為未來多模態AI研發的標配工具，如同ImageNet之于視覺模型、GLUE之于語言模型一樣，成為促進未來通用多模態AI進步的Infrastructure。

更重要的是，General-Level傳達出一個關鍵信號：真正的通才AI不應只是一堆功能的集合，而應該是各功能之間有機協作的整體。

在追求更高參數量和更多訓練數據之外，如何讓模型內部形成協同增益，將是邁向AGI不可回避的問題。當前，沒有模型達到Level 5，這既意味著差距，也意味著機遇。

下一個「多模態ChatGPT時刻」何時到來？

也許正取決于我們能否解決協同效應的難題，培育出橫跨所有模態和任務的全能型AI。

總而言之，General-Level為評估多模態通才智能樹立了新標桿。我們期待看到更多研究者使用這一基準來檢驗自己的模型，不斷沖擊更高段位。隨著社區的共同努力，多模態通才AI的未來必將加速到來。

從Level 1到Level 5，是一條充滿挑戰但充滿希望的征途；讓我們攜手踏上這條征途，見證通才AI從現在的星星之火走向燎原之勢！

參考資料：

https://arxiv.org/pdf/2505.04620v1

https://generalist.top/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.