99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型時代,通用視覺模型將何去何從?

0
分享至



過去幾年,通用視覺模型(Vision Generalist Model,簡稱 VGM)曾是計算機視覺領域的研究熱點。它們試圖構建統一的架構,能夠處理圖像、點云、視頻等多種視覺模態輸入,以及分類、檢測、分割等多樣的下游任務,向著「視覺模型大一統」的目標邁進。

然而,隨著大語言模型 LLM 的迅猛發展,研究熱點已經悄然發生轉移。如今,多模態大模型興起,視覺被看作是語言模型眾多輸入模態中的一種,視覺模態數據被離散化為 Token,與文本一起被統一建模,視覺的「獨立性」正在被重新定義。

在這種趨勢下,傳統意義上以視覺任務為核心、以視覺范式為驅動的通用視覺模型研究,似乎正在逐漸被邊緣化。然而,我們認為視覺領域仍應保有自己的特色和研究重點。與語言數據相比,視覺數據具有結構化強、空間信息豐富等天然優勢,但也存在視覺模態間差異大、難替代的挑戰。例如:如何統一處理 2D 圖像、3D 點云和視頻流等異質輸入?如何設計統一的輸出表示來同時支持像素級分割和目標檢測等不同任務?這些問題在當前的多模態范式中并未被充分解決。

正因如此,在這個多模態模型席卷科研與工業的新時代,回顧并總結純視覺范式下的通用視覺模型研究仍然是一件十分有意義的事情。清華大學自動化系魯繼文團隊最近發表于 IJCV 的綜述論文系統梳理了該方向的研究進展,涵蓋輸入統一方法、任務通用策略、模型框架設計、模型評測應用等內容,希望能為未來視覺模型的發展提供參考與啟發。



  • 論文標題:Vision Generalist Model: A Survey
  • 論文鏈接:
  • https://arxiv.org/abs/2506.09954



VGM 到底解決了什么問題?

通用視覺模型是一種能夠處理多種視覺任務和模態輸入的模型框架。類似于大語言模型在自然語言處理中的成功,VGM 旨在通過構建一個統一的架構來解決各種計算機視覺任務。傳統的視覺模型通常針對特定任務(如圖像分類、目標檢測、語義分割等)設計,而 VGM 通過廣泛的預訓練和共享表示,能夠在不同的視覺任務之間實現零樣本(Zero-shot)遷移,從而無需為每個任務進行專門的調整。

VGM 的關鍵能力之一是其多模態輸入的統一處理能力。不同于傳統模型只處理單一類型的視覺數據,VGM 能夠同時處理來自多個模態的數據,如圖像、點云、視頻等,并通過統一的表示方法將它們映射到共享的特征空間。

此外,VGM 還具備強大的多任務學習能力,能夠在同一個模型中處理多個視覺任務,從圖像識別到視頻分析,所有任務都可以在一個通用框架下并行處理。

綜述涵蓋了哪些核心內容?

數據 + 任務 + 評測:為通用建模打基礎

VGM 通常使用大規模、多樣化的數據集進行訓練和評估。為了支持多模態學習,VGM 使用的訓練數據集涵蓋了圖像、視頻、點云等多種類型,本綜述列舉并介紹了一些常見的多模態數據集。

任務方面,本綜述將視覺任務分為四類:圖像任務、幾何任務、時間序列任務以及其他視覺相關任務。評測方面,主要通過多個綜合基準來衡量其在多種任務和數據集上的表現。與傳統的單一任務評測不同,現代評測方法更注重模型的跨任務泛化和多模態處理能力。本綜述也對現有通用視覺模型的評測基準做了充分的調研與總結。

模型設計范式與技術補充



現有通用視覺模型的設計范式主要集中在如何統一處理不同視覺模態輸入和多樣化任務輸出,大致可以分為兩種類型:編碼式框架和序列到序列框架。

編碼式框架(Encoding-based Framework)旨在通過構建一個共享的特征空間來統一不同的輸入模態,并使用 Transformer 等模型進行編碼。這類框架通常包括領域特定的編碼器來處理不同類型的數據,如圖像、文本和音頻,然后通過共享的 Transformer 結構進行進一步處理,最終生成統一的輸出。

而序列到序列框架(Sequence-to-Sequence Framework)則借鑒了自然語言處理中的序列建模方法,將輸入數據轉換為固定長度的表示,然后通過解碼器生成相應的輸出。這些框架特別適合處理具有可變長度輸入輸出的任務,如圖像生成和視頻分析。

盡管有一些工作并不能被定義為通用視覺模型,但它們在聯合多模態數據輸入、模型架構設計、協同處理多任務輸出等方面做出了卓越的技術貢獻。本綜述也對這些技術進行了詳盡的討論分析。一些相關領域的內容,如多任務學習、視覺-語言學習、開放詞匯,也被用來擴充通用視覺模型領域的知識邊界。

此外,作為一個 case study,本綜述對比了收錄了多個主流 VGM 模型在 22 個基準數據集上的評測結果:



VGM 的未來在哪里?

最后,本綜述總結了 VGM 的當前研究進展和面臨的挑戰,還強調了其在實際應用中的潛力和未來發展方向。

現有 VGM 在多個任務和多模態輸入的統一處理方面已經取得了顯著的進展,但仍面臨著如何優化統一框架設計、提高訓練效率和應對大規模數據等挑戰。數據獲取和標注仍然是 VGM 發展的瓶頸。

為了解決這一問題,自動化標注技術以及大規模無監督學習方法的研究將成為未來的研究重點。然而,隨著模型規模的擴大,VGM 也面臨著倫理問題和偏見的挑戰。大量未標注的數據中可能包含潛在的偏見,如何確保模型的公平性、透明性和安全性,仍是未來研究中的重要課題。

盡管如此,現有的 VGM 在實際應用中展示了廣泛的潛力。它不僅可以用于傳統的視覺任務,如圖像分類、目標檢測和語義分割,還能擴展到更復雜的多模態任務,如視覺問答、圖像-文本檢索、視頻理解等。這些應用涵蓋了智能監控、自動駕駛、機器人等多個領域,推動了 VGM 在實際場景中的廣泛部署。

希望這篇文章能給研究中的你一些啟發。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為什么要往死里掃黃......

為什么要往死里掃黃......

深度報
2025-06-25 22:38:42
Cancer Cell:胡國宏團隊首次揭示,化療會喚醒休眠癌細胞,導致癌癥復發轉移

Cancer Cell:胡國宏團隊首次揭示,化療會喚醒休眠癌細胞,導致癌癥復發轉移

生物世界
2025-07-04 12:04:22
賴清德拆掉蔣介石銅像,蔣家后代還有可能將“兩蔣”移靈到大陸嗎

賴清德拆掉蔣介石銅像,蔣家后代還有可能將“兩蔣”移靈到大陸嗎

紅史
2025-07-03 21:12:46
連人帶槍投靠印度?中方立場強硬,塔利班另尋他路

連人帶槍投靠印度?中方立場強硬,塔利班另尋他路

林子說事
2025-07-02 06:20:09
紀實:結婚50天就離婚,女方40萬彩禮一分不退,婚內碰一下就吃藥

紀實:結婚50天就離婚,女方40萬彩禮一分不退,婚內碰一下就吃藥

談史論天地
2025-07-04 15:40:03
洪森想取代西哈莫尼路人皆知,只是害怕壞了和中柬的友好關系

洪森想取代西哈莫尼路人皆知,只是害怕壞了和中柬的友好關系

大道無形我有型
2025-06-30 21:19:24
倒計時2天!中國女籃傳來2好消息,中澳大戰央視直播 6大主力缺席

倒計時2天!中國女籃傳來2好消息,中澳大戰央視直播 6大主力缺席

史行途
2025-07-04 11:11:15
9月3日大閱兵,中方有特殊安排

9月3日大閱兵,中方有特殊安排

傲骨真心
2025-07-04 10:35:39
張碧晨罕見曬女兒!曾是早產兒的華迎晨6歲長超高,母女擁抱好有愛

張碧晨罕見曬女兒!曾是早產兒的華迎晨6歲長超高,母女擁抱好有愛

扒星人
2025-07-03 11:53:03
老鷹管理層對鵜鶘的操作難以置信,甚至直接打電話進行三重確認

老鷹管理層對鵜鶘的操作難以置信,甚至直接打電話進行三重確認

雷速體育
2025-07-04 11:39:08
9.5分封神!韓國最新懸疑電影、一口氣看完

9.5分封神!韓國最新懸疑電影、一口氣看完

君笙的拂兮
2025-07-04 10:42:06
566萬!冠軍前鋒確認加盟快船,哈登超級興奮,最新首發五虎曝光

566萬!冠軍前鋒確認加盟快船,哈登超級興奮,最新首發五虎曝光

山河入畫屏
2025-07-04 07:02:22
痞幼與張繼科交往拍私密照!發文抱怨被騙,床照流出50歲男友分手

痞幼與張繼科交往拍私密照!發文抱怨被騙,床照流出50歲男友分手

八星人
2025-07-03 12:59:37
央視新聞聯播,康輝再次點名全紅嬋!央媽稱她為全滿分升起中國紅

央視新聞聯播,康輝再次點名全紅嬋!央媽稱她為全滿分升起中國紅

白面書誏
2025-07-04 15:59:10
R.I.P. 德轉顯示:離世的若塔身價從4000萬歐直接歸零

R.I.P. 德轉顯示:離世的若塔身價從4000萬歐直接歸零

直播吧
2025-07-03 17:47:06
組隊在巴黎!布倫森社媒發布與唐斯和哈特在巴黎時裝周照片

組隊在巴黎!布倫森社媒發布與唐斯和哈特在巴黎時裝周照片

雷速體育
2025-07-04 15:31:19
公務員吃空餉大整頓!這6類人員將被重點清退,一個都跑不掉!

公務員吃空餉大整頓!這6類人員將被重點清退,一個都跑不掉!

愛下廚的阿椅
2025-06-22 05:30:42
楊瀚森訓練后收拾發型!夏聯迎新挑戰 最佳新秀賠率排名已升第15

楊瀚森訓練后收拾發型!夏聯迎新挑戰 最佳新秀賠率排名已升第15

羅說NBA
2025-07-04 09:41:45
埃及確認采購中國紅旗9遠程防空系統

埃及確認采購中國紅旗9遠程防空系統

深度Militaire
2025-07-04 08:05:16
大學學費漲了?如果4年大學需要40萬學費,這個大學還有必要讀嗎

大學學費漲了?如果4年大學需要40萬學費,這個大學還有必要讀嗎

正經說個事兒
2025-07-03 20:50:05
2025-07-04 16:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10785文章數 142353關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

學者:泰柬沖突或引發域外大國介入 插手中南半島事務

頭條要聞

學者:泰柬沖突或引發域外大國介入 插手中南半島事務

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經要聞

闖禍電芯商部分產線停產!羅馬仕通知停工

汽車要聞

純電續航180km/或30萬級 方程豹鈦7四季度上市

態度原創

數碼
親子
手機
家居
公開課

數碼要聞

智能電冰箱國家標準修訂發布 12月1日正式實施

親子要聞

幼兒園多名幼兒血鉛異常,究竟是哪個環節出了問題|新京報快評

手機要聞

5月國內市場手機出貨量2371.6萬部 同比下降21.8%

家居要聞

合理布局 三口之家的溫馨空間

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 建水县| 镶黄旗| 万盛区| 三原县| 内丘县| 尤溪县| 临猗县| 内乡县| 永德县| 时尚| 乾安县| 阿鲁科尔沁旗| 营口市| 武安市| 寿宁县| 新乡县| 惠东县| 崇左市| 广元市| 罗平县| 错那县| 比如县| 长武县| 汝阳县| 平远县| 高州市| 拜泉县| 土默特右旗| 株洲县| 灵宝市| 淅川县| 滦南县| 永顺县| 乳山市| 通州市| 偏关县| 靖西县| 饶阳县| 延安市| 海宁市| 甘孜|