網易首頁 > 網易號 > 正文申請入駐

Hugging Face 推出最新SmolVLM，小模型在多項任務上干翻主流大模型

2025-04-18 19:13:03　來源: 至頂AI實驗室

北京舉報

分享至

這兩天，我身邊的小伙伴們在樂此不疲的玩一個游戲，讓ChatGPT的O3猜圖…

貌似每次視覺模型（VLM）或者說多模態模型的推出，都會引起一番全民熱議，無他，有圖有真相

今年伊始，模型廠商也像是商量好似的，發布的模型大多具有視覺識別能力（VLM），Qwen2.5 VL-72B，claude 3.7，Aya Vision-8B，O3…

前不久，Hugging Face也推出了其VLM家族SmolVLM的最新系列，其中最小的SmolVLM-256M參數量只有256M，還不到之前一直以輕量級自稱的Aya Vision-8B的三十分之一。

就是一個這樣量級的小模型，不僅在單幅圖像的OCR、VQA、文檔理解等基準測試上名列前茅，還在視頻理解任務中展現出與高階巨模相當的實力，更是取得了在OCRBench等關鍵指標上超越80B參數模型的"反常識"成果。

目前，絕大多數VLM依然延續了大模型的設計思路，使用大量視覺token化，導致內存開銷依然居高不下，難以在移動端或嵌入式場景中運行。如何在邊緣設備或移動設備上高效部署VLM成為了一個核心痛點。

而SmolVLM則恰恰是為其而生，在保持強大的多模態性能的基礎上，無論是移動端設備，消費級筆記本電腦，還是瀏覽器端的推理，SmolVLM都能輕松應對。這不僅是對既有技術路線的顛覆，更預示著邊緣智能領域即將迎來新一輪洗牌。

研究背景：開源社區的效率突圍

SmolVLM由Hugging Face與斯坦福大學研究團隊聯合開發，論文于2025年4月份發布在arXiv平臺（2504.05299）。

SmolVLM項目是Hugging Face在多模態小型模型領域的重要探索，得到了該組織研究資源的全面支持。

研究團隊擁有豐富的多模態模型開發經驗，此前曾參與開發Idefics等大型視覺-語言模型。與以往不同的是，SmolVLM項目特別關注如何在極小的參數規模下實現高效的多模態能力，這一方向對于推動AI在邊緣和移動設備上的應用具有重要意義。

該研究不僅提供了完整的模型實現，還開源了所有模型權重、數據集和代碼，并發布了展示在智能手機上進行推理的移動應用程序，旨在填補“高性能VLM難以在邊緣端部署”的產業空白，推動多模態AI在移動端、低功耗場景中的普及。

核心成果：小而美

SmolVLM的最大成就在于它徹底顛覆了"更大即更好"的傳統范式，證明了精心設計的小型模型可以在資源效率和性能之間取得令人驚訝的平衡。

研究團隊開發了三個不同規模的SmolVLM變體，每一個都針對不同的計算環境進行了優化：

SmolVLM-256M是該系列中最小的模型，僅有256M參數，結合了93M的SigLIP-B/16視覺編碼器和135M的SmolLM2語言模型。這個微型模型在推理過程中只需不到1GB的GPU內存，非常適合資源極度受限的邊緣設備或移動設備應用。

這個小模型在多項基準測試中的表現超過了參數量是它300倍的Idefics-80B模型，這一成就充分展示了精心設計的架構可以大幅提升小型模型的性能上限。

SmolVLM-500M是一個中等規模的模型，同樣使用93M的SigLIP-B/16視覺編碼器，但搭配了更大的360M SmolLM2語言模型。這個模型在內存效率和性能之間取得了良好的平衡，適合中等資源的邊緣設備。

在實驗中，這個模型在多項視覺和視頻任務上都取得了令人印象深刻的成績，例如在DocVQA（文檔理解）測試中達到了70.5%的準確率，在ScienceQA（高中科學問題）測試中達到了80.0%的準確率。

SmolVLM-2.2B是該系列中最大的變體，采用了400M的SigLIP-SO 400M視覺編碼器和1.7B參數的SmolLM2語言模型。這個模型在保持相對較小體積的同時，性能已經可以與消耗兩倍GPU內存的最先進VLM模型相媲美。

在推理過程中，它只需要4.9GB的GPU內存，而同等規模的Qwen2VL-2B需要13.7GB，InternVL2-2B需要10.5GB，這充分說明了參數數量并不能完全決定計算需求，架構設計同樣至關重要。

在性能方面，SmolVLM系列在多項基準測試中都表現出色。

以SmolVLM-2.2B為例，它在OCRBench（字符識別）測試中達到了72.9%的準確率，在TextVQA（文本理解）測試中達到了73.0%的準確率，在DocVQA（文檔理解）測試中達到了80.0%的準確率，在ScienceQA（高中科學問題）測試中更是達到了89.6%的準確率。

這些成績與許多參數量更大的模型相當甚至更優。

特別值得一提的是，SmolVLM不僅在靜態圖像任務上表現出色，還展示了強大的視頻理解能力。

在Video-MME（通用視頻理解）測試中，SmolVLM-2.2B達到了52.1%的準確率，超過了InternVL2-2B的表現。在WorldSense（時間和物理理解）測試中，它達到了36.2%的準確率，超過了Qwen2VL-7B的32.4%。

這種跨模態的泛化能力使SmolVLM特別適合多樣化的實際應用場景。

SmolVLM的另一個重要成就是其在邊緣設備上的高效表現。研究團隊在不同硬件平臺上對模型的吞吐量進行了基準測試，結果表明SmolVLM非常適合在資源受限的環境中部署。

在NVIDIA A100 GPU上，SmolVLM-256M變體在批處理大小為1時可以達到每秒0.8個樣本的吞吐量，在批處理大小為64時可以達到每秒16.3個樣本的吞吐量。即使在更受限的L4 GPU上，SmolVLM-256M也能在批處理大小為8時達到每秒2.7個樣本的峰值吞吐量。

研究團隊還展示了SmolVLM可以在瀏覽器環境中通過WebGPU高效運行，256M變體在14英寸MacBook Pro（M4 Max）上可以達到每秒80個解碼標記的速度。這種跨平臺的兼容性大大拓寬了SmolVLM的部署機會，使其可以在各種消費級硬件上運行。

SmolVLM的成功已經引發了多個下游應用的開發。

ColSmolVLM利用較小的SmolVLM變體（256M和500M參數）實現了在移動設備、消費級筆記本電腦甚至瀏覽器環境中的高效多模態推理。

Smol Docling是一個專為端到端多模態文檔轉換任務優化的超緊湊256M參數變體，通過采用稱為DocTags的專用表示，有效捕獲各種文檔類型的內容、上下文和空間關系。

BioVQA則利用SmolVLM的緊湊高效架構解決生物醫學領域的視覺問答任務，在解釋醫學圖像和回答臨床問題方面展示了令人期待的能力。

總的來說，SmolVLM的核心成就在于它證明了通過精心設計的架構和訓練策略，可以在極小的參數規模和內存占用下實現強大的多模態能力，為資源受限環境中的AI應用開辟了新的可能性。

方法評析：效率與性能的平衡術

SmolVLM的成功不是偶然的，而是源于研究團隊對模型架構和訓練策略的系統性探索與創新。

SmolVLM在視覺編碼器和語言模型之間實現了更為平衡的參數分配。傳統的大型VLM模型通常將大部分參數分配給語言模型，而視覺編碼器相對較小。而SmolVLM的研究表明，當語言模型規模縮小時，這種不平衡的分配方式不再高效。

研究團隊通過實驗發現，對于最小的135M語言模型，使用較大的428M SigLIP-SO 400M視覺編碼器反而會導致性能顯著下降，表明編碼器與語言模型之間存在效率不平衡。只有在較大的1.7B語言模型規模下，較大的視覺編碼器才能帶來明顯的性能提升。這一發現挑戰了傳統的參數分配方式，為小型多模態模型提供了更為合理的設計指導。

SmolVLM采用了擴展上下文長度和高效的視覺標記壓縮技術。研究團隊將RoPE基數從10k增加到273k，將上下文容量從2k擴展到16k（對于較小的變體為8k），這使得模型能夠處理更高分辨率的圖像。

他們采用了像素重排（pixel shuffle）技術來壓縮視覺標記，這種技術通過重新排列空間特征到額外的通道中，減少了空間分辨率但增加了表示密度。與大型模型通常使用的r=2壓縮比不同，SmolVLM的實驗表明小型模型從更激進的壓縮（r=4）中受益更多，因為減少的標記數量減輕了注意力機制的開銷并改善了長上下文建模。

這種對視覺標記的高效處理是SmolVLM能夠在有限資源下實現強大性能的關鍵因素之一。

SmolVLM針對圖像和視頻采用了不同的處理策略。對于高分辨率圖像，研究團隊采用了圖像分割策略，將圖像分成多個子圖像，同時保留一個縮小版的原始圖像。這種方法在不增加過多計算開銷的情況下有效地保持了圖像質量。而對于視頻，他們發現幀平均等策略反而會降低性能。

實驗表明，隨著平均因子的增加（2、4、8），OpenCompass-Video的結果顯著下降。因此，SmolVLM的最終設計中排除了幀平均，而是將視頻幀重新縮放到圖像編碼器的分辨率。這種針對不同模態的差異化處理策略，體現了研究團隊對多模態任務特性的深刻理解。

在訓練策略方面，SmolVLM同樣展現了多項創新。研究團隊發現，使用學習的位置標記比簡單的字符串標記（如）效果更好，特別是對于小型模型。

學習的位置標記顯著改善了訓練收斂性并減少了停滯，在多個圖像和文本基準測試中始終優于樸素的字符串位置。這一發現強調了在緊湊的多模態模型中結構化位置標記化的有效性。

此外，SmolVLM的訓練過程中還采用了系統提示、媒體引入/結束標記和用戶提示掩碼等技術。系統提示用于澄清任務目標并減少零樣本推理過程中的歧義；媒體引入/結束標記用于明確標記視覺內容；用戶提示掩碼則用于減少過擬合。

實驗表明，這些策略在圖像和視頻任務中都帶來了顯著的性能提升，特別是對于視頻任務，媒體引入/結束標記的效果尤為明顯。

在訓練數據方面，SmolVLM的研究也提供了幾個重要發現。

與直覺相反，重用來自大型語言模型監督微調階段的文本數據（SmolTalk）實際上會降低小型多模態架構的性能，在視頻任務中降低了3.7%，在圖像任務中降低了6.5%。這表明數據多樣性的減少超過了重用文本的任何好處。

對于思維鏈（Chain-of-Thought）數據的集成，研究發現在小型多模態模型中，只有極少量（0.02-0.05%）的思維鏈示例才能略微提高性能，而更高比例的思維鏈數據會明顯降低結果，特別是在圖像任務中。這表明過多的推理導向文本數據會壓倒小型模型的有限容量，從而損害其視覺表示能力。

關于視頻序列長度的影響，研究表明隨著視頻持續時間接近約3.5分鐘，視頻和圖像基準測試的性能都有明顯提升，但超過3.5分鐘后收益遞減，表明相對于增加的計算成本，過長的序列并不能成比例地證明其合理性。

盡管SmolVLM在多個方面展現了創新和優勢，但它也存在一些局限性。

雖然SmolVLM在多項基準測試中表現出色，但在一些需要強大語言推理能力的任務（如MMMU和AI2D）上，它仍然落后于更大的模型。這表明在某些復雜任務上，語言模型的規模仍然是一個重要因素。

SmolVLM的設計選擇（如更激進的視覺標記壓縮）可能會影響需要精確定位的任務，如OCR。雖然研究團隊通過平衡不同的設計選擇來最小化這些影響，但這種權衡仍然存在。

SmolVLM的訓練過程需要精心設計的數據混合和訓練策略，這可能增加了模型開發的復雜性。

結論：小型模型的大未來

SmolVLM的研究成果對多模態AI領域具有深遠的影響，它不僅展示了小型模型的巨大潛力，更為未來AI技術的發展提供了新的思路和方向。

徹底挑戰了"更大即更好"的傳統觀念。在過去幾年中，AI領域的主流趨勢是不斷增加模型參數量，從數十億到數千億，以追求更強的性能。SmolVLM證明了通過精心設計的架構和訓練策略，即使是參數量極小的模型也能達到甚至超越參數量大得多的模型的性能。

這一發現對整個AI領域具有啟示意義，它表明我們可能不需要無限制地增加模型規模，而是應該更加關注模型的設計效率和訓練方法的優化。

同時，SmolVLM為資源受限環境中的AI應用開辟了新的可能性。隨著AI技術的普及，將AI能力擴展到移動設備、邊緣計算設備和物聯網設備變得越來越重要。

而傳統的大型模型由于其巨大的計算和內存需求，難以在這些資源受限的環境中部署。SmolVLM通過將推理內存需求降低到不到1GB，使得在智能手機、平板電腦甚至瀏覽器環境中運行強大的多模態AI成為可能。這不僅提高了AI的可訪問性，也為開發更多創新的邊緣AI應用創造了條件。

研究團隊通過系統性地探索不同的架構配置、標記化策略和訓練數據組合，揭示了多個關鍵的設計原則，如視覺編碼器與語言模型之間的平衡參數分配、擴展上下文長度的重要性、更激進的視覺標記壓縮的效果、學習的位置標記的優勢等。

這些發現不僅對SmolVLM本身的開發至關重要，也為未來的多模態模型設計提供了有價值的參考。

SmolVLM的成功表明，數據質量和訓練策略對模型性能的影響可能比模型規模更為重要。

研究發現，簡單地重用大型語言模型的訓練數據可能對小型多模態模型有害，而精心設計的數據混合和訓練策略則可以顯著提升性能。這強調了在模型開發中"質量勝于數量"的原則，也提醒我們在追求更大模型的同時，不應忽視數據和訓練方法的優化。

在應用前景方面，SmolVLM為多個領域帶來了新的可能性。

在移動設備上，它可以支持更智能的相機應用、實時視覺翻譯、增強現實體驗等功能，而無需將數據發送到云端處理。

在醫療領域，像BioVQA這樣的應用可以幫助醫生快速解釋醫學圖像，提高診斷效率。

在教育領域，SmolVLM可以支持智能教材和學習輔助工具，幫助學生理解復雜的視覺概念。

在工業領域，它可以用于質量控制、設備維護和安全監控等場景。

SmolVLM代表了多模態AI領域的一個重要里程碑，它不僅展示了小型高效模型的巨大潛力，也為未來AI技術的發展提供了新的思路和方向。隨著這一領域的持續發展，我們可以期待看到更多創新的小型多模態模型和更廣泛的應用場景，最終實現AI技術的普及。

至頂AI實驗室洞見

如果說大而全的巨模更像“多面手”，那么SmolVLM則是“高效專家”，二者各擅勝場。

但我們依然認為SmolVLM的出現代表了一種重要的范式轉變，在模型參數軍備競賽漸成紅海的今天，真正的效率革命不應止于參數裁剪，而需重構多模態融合的底層邏輯，在保持高性能的同時大幅降低資源需求。這不僅是技術上的進步，更是一種價值觀的回歸——AI技術的終極目標應該是服務于更廣泛的人群，而不僅僅是那些擁有高端計算資源的少數企業。

未來研究可能沿兩個方向突破：一是探索神經架構搜索（NAS）與多模態模型的結合，自動生成最優緊湊架構；二是開發跨模態的分布式推理框架，將視覺、語言模塊解耦部署。

當這些技術走向成熟，我們不僅能感受如SmolVLM般“蝴蝶穿花”的愜意，或許還能見證一個"大象輕盈起舞"的新時代。

論文地址：https://arxiv.org/pdf/2504.05299

本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.