網易首頁 > 網易號 > 正文申請入駐

我們用世界名畫和Meme“拷打”了智譜9B的視覺推理模型，結果出人意料

2025-07-02 13:30:53　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

2025年上半年，AI開源領域的競賽異常激烈，主要圍繞著幾個核心方向展開：首先是效率競賽，各路玩家不再單純追求千億、萬億參數的“巨無霸”模型，而是更專注于通過新架構和訓練方法，用更小的參數實現更強的性能。其次，多模態已成標配，純文本模型越來越少，新發布的旗艦模型幾乎都具備了處理圖像、視頻等多種信息的能力。

最后，智能體（Agent）是新戰場，讓AI能夠調用工具、自主完成任務，成為了衡量模型能力的關鍵指標。在這樣的背景下，智譜AI在今天正式開源了其最新的多模態模型：GLM-4.1V-9B-Thinking。

GLM-4.1V-9B-Thinking只有9B參數，但在18個測試中，表現卻能持平甚至超過72B參數的Qwen-2.5-VL-72B。更重要的是，它引入的“思考范式”，通過課程采樣強化學習 RLCS（Reinforcement Learning with Curriculum Sampling）全面提升模型能力，讓我們能清晰地看到AI如何對復雜的視覺信息進行推理，而不僅僅是給出一個“黑盒”式的答案。

核心技術：GLM-4.1V-Thinking是如何實現的？

簡單說完了核心特點，我們來看看GLM-4.1V-Thinking是怎么實現這些能力的。

這個模型的架構主要有三個部分：視覺編碼器、一個起橋梁作用的適配器、以及語言解碼器。但每個部分都有不少創新。

視覺編碼器用的是AIMv2-Huge，這是個很強的視覺模型。但智譜做了個重要改動：把傳統的2D卷積換成了3D卷積，這樣做的好處是能更好地處理視頻，因為多了時間維度。對于靜態圖片，就通過復制幀的方式保持格式一致。

然后是位置編碼的改進。智譜加入了2D-RoPE（二維旋轉位置編碼），讓模型能處理各種奇怪尺寸的圖片。什么概念？寬高比超過200:1的圖片都能處理，4K分辨率也沒問題。同時還保留了原來ViT的位置嵌入，通過雙三次插值動態適配不同分辨率。

中間的適配器是個MLP結構，主要負責把視覺信息和語言信息連接起來。這部分看起來簡單，但很關鍵，決定了視覺和語言信息能不能有效融合。

語言解碼器用的是GLM架構，也做了改進。原來的RoPE位置編碼被擴展成了3D-RoPE，增強了對多模態輸入的空間理解能力，同時保持文本生成的原有性能。

整個架構的巧妙之處在于，每個組件都不是簡單拼接，而是深度融合。視覺信息經過編碼后，通過適配器與語言模型深度整合，最后輸出的不只是答案，還有完整的推理過程。

訓練過程也很有講究。分三個階段：預訓練、監督微調（SFT）和課程采樣強化學習（RLCS）。預訓練階段又分為多模態預訓練和長上下文持續訓練；然后是監督微調，專門用高質量的CoT（思維鏈）數據來訓練推理能力；最后是課程采樣強化學習，通過RLVR和RLHF兩種方法全面優化性能，通過課程采樣，在這些任務上開展由易而難的動態大規模強化學習訓練，模型在實用性、準確性和穩健性等方面取得了顯著提升。

這種設計讓9B參數發揮出了遠超參數規模的能力，不是靠堆參數，而是靠精巧的架構設計和訓練策略。

上手實測，一個模型的多種用途

了解了GLM-4.1V-Thinking的核心技術后，我們通過幾個實際案例，來看看它在真實場景中的表現。

實測案例 1：高考數學幾何真題

正值七月初，各地高考分數剛剛放榜，我們先用一道今年的高考數學真題來檢驗一下GLM-4.1V-Thinking的邏輯推理能力。

測試指令：“請幫我解決這個題目，給出詳細過程和答案。”

模型的思考過程非常詳盡，它首先分析了“正四棱柱”的幾何特性，識別出底面是正方形，側棱與底面垂直。甚至考慮了用空間坐標系來解題的可能性，但最終選擇了更簡潔的幾何法。

解題步驟也很清晰，三步走策略——先用勾股定理求出底面對角線，再求邊長，最后算體積。

實測案例 2：視頻理解能力，甚至預判了我的問題

光會做數學題還不夠，我們想看看GLM-4.1V-9B-Thinking在生活場景里的表現，于是給它發了一段最近正在嘗試的家常菜“農家一鍋香”的烹飪教程視頻。

這次采用了“追問”的形式，逐步加深難度。

我們先問了一個最基本的問題：“這個視頻講了什么？”

GLM-4.1V-9B-Thinking的回答迅速且準確，表明它對視頻的整體內容有快速的歸納能力。

接著，我們增加了難度，要求它拆解出具體步驟：“主要步驟有哪些？”

模型的表現依然很出色，列出了“1. 煎雞蛋 -> 2. 炒青椒 -> 3. 炒肉 -> 4. 混合調味 -> 5. 裝盤”的核心流程。

有意思的是，模型似乎暴露了它處理視頻的可能方式。在回答中可以觀察到它引用了多個“頁面”或幀作為分析參考，這些頁面的序號和視頻的秒數相對應，可能是將視頻理解為一系列按時間順序排列的關鍵幀截圖。

最后，我們提出了一個最考驗細節能力問題：“第27秒發生了什么？”

它能精準地定位到第27秒對應的截圖，并描述出當時的動作是“用勺子打出多余的油脂”。更錦上添花的是，它還主動解釋了這么做的目的——是為了“減少油膩感”，而這正是我們準備追問的下一個問題。

實測案例 3：梗圖理解

我們再用一張在大模型圈流傳的Meme圖，考驗一下它的“情商”和對網絡亞文化的理解。

測試指令：“這個圖是什么意思？”

回答如下：這張圖是一個網絡迷因（meme），用來表達**情侶關系中因對電子設備文件的理解差異而產生的小誤會與不信任感**，具體含義可拆解為：文字說明：“When she sees a folder named "models" in your personal laptop and all it contains some file ending with .pkl, .pt or .pth” 意思是 *當她看到你個人筆記本電腦里有個叫“models”的文件夾，里面全是帶 .pkl、.pt 或 .pth 后綴的文件時*。圖像場景：畫面中女性（通常代表女友/妻子視角）面露疑惑、擔憂，手持手機（可能是在質問或觀察）；男性（代表伴侶）在浴室（可能剛結束獨處時間后回到空間），整體氛圍透露出“她對你電腦里的‘models’文件夾存有疑慮”，而實際上：這些文件擴展名（`.pkl`、`.pt`、`.pth`）常見于機器學習/人工智能領域（`.pkl` 是 Python 的序列化格式，`.pt` 和 `.pth` 多是 PyTorch/TensorFlow 等框架下的模型權重文件），屬于技術開發資料；但“models”字面容易讓人誤以為是“模特照片”等非技術關聯的內容，導致情侶間對文件夾用途產生**認知偏差**——女方可能覺得這是和“外部女性/不適當內容”有關的證據，進而表現出不信任、焦慮的情緒。簡言之，這張圖幽默地展現了“因為行業術語/文件命名歧義，導致親密關系中出現小誤會，一方對另一方隱私/設備內容產生猜忌”的場景，常用于調侃“程序員/科技從業者伴侶被質疑電腦內容”的共鳴感~

可以看到，模型解釋了所有的事實，但沒能點出這個梗的核心——那種由信息差造成的、程序員“有苦說不出”的巨大情感反差。不過憑借9B的參數能做到這一步，已經相當不錯了。

實測案例 4：抽象的藝術審美與創意聯想

最后，為了測試GLM-4.1V-9B-Thinking的邏輯與創意融合能力，我們選擇了一個更具挑戰性的任務，讓它解讀世界名畫《阿爾諾芬尼夫婦像》，并模仿其風格創作一段商業文案。

問：這是揚·凡·艾克的名畫《阿爾諾芬尼夫婦像》。請你仔細觀察后，完成以下任務：

1、用簡單的語言，描述這幅畫的主要內容、整體氛圍，并解讀其中至少兩個最突出的象征性元素。

2、現在，請你模仿這幅畫所傳達出的感覺，為一項高端的家族財富規劃服務——“傳世信托”，撰寫一段大約100字的宣傳文案。

結果也相當出色。模型不僅準確解讀了畫作的莊重氛圍和鏡子、綠色長裙等元素的象征意義，還能將這種“注重傳承和契約”的感覺，巧妙地遷移到了為“傳世信托”撰寫的宣傳文案中。從分析畫作細節，到提煉“見證”與“永恒”等關鍵詞，再到將其應用在文案創作的完整邏輯鏈條，迫使模型幾乎調用了從知識庫、邏輯鏈到語言美學的全部能力，這項任務的耗時也最長（耗時22597ms）。

9B參數的“以小博大”之道

根據官方技術報告，GLM-4.1V-9B-Thinking達到了10B參數級別視覺語言模型的最強性能（SOTA）。

這是一個相當亮眼的成績。具體來看，在28項公開評測任務中，它有23項做到了同級別最佳。更值得注意的是，其中有18項任務的表現，持平甚至超過了參數量是它8倍的Qwen-2.5-VL-72B模型。這意味著模型在“參數效率”（即用更小的模型尺寸達到更高的性能）上做得非常出色。

從評測數據中，我們可以梳理出幾個關鍵點：

在科學、技術、工程、數學（STEM）領域表現突出。在MMMU、MathVista、AI2D等多個需要嚴謹數理邏輯和科學知識的測試中，它的得分都超過了參數量遠大于它的對手。

在需要精細理解的任務上優勢明顯。例如，在需要識別圖表內容的ChartQA、ChartMuseum，以及處理長文檔的MMMLongBench-Doc評測上，它的得分都大幅領先于同級別的其他模型。

在新興的Agent和代碼能力上很強。特別是在GUI Agent（圖形界面代理）和Coding（代碼生成）這兩個考驗模型與數字世界深度交互能力的領域，它的提升尤其顯著。

此外，官方還提供了一張圖，清晰地展示了“強化學習”（RL）在訓練過程中帶來的性能提升。

可以看到，在經過SFT（監督微調）的基礎上，再加入RL訓練后，模型在GUI Agents、視頻理解、STEM等多個維度上都有了5%到7%不等的顯著增長。這從數據上直觀地證明了其訓練方法的有效性，也解釋了為什么它能達到如此高的性能水平。

總的來說，這些量化數據印證了我們在第一部分提到的觀點，不是靠堆參數，而是靠精巧的架構設計和訓練策略，讓模型發揮出了遠超參數規模的能力。

在AI版圖里，GLM-4.1V-Thinking的位置和未來

最后，我們不妨退后一步，看看GLM-4.1V-Thinking在當下的AI版圖里，到底處在一個什么樣的位置，又意味著什么。

從技術角度看，9B參數能達到72B參數的效果，這對整個行業都有啟發意義。不是所有公司都能負擔得起訓練超大模型的成本，但如果能通過更好的架構和訓練方法達到同樣效果，那門檻就降低了很多。

開源這個決定也很關鍵。GLM-4.1V-Thinking的開源，可能會極大地推動更多關于“多模態思考范式”的研究和應用，讓整個社區都受益。

這種全面的能力，也正好契合了當前AI發展的一個核心趨勢：自主智能體（Autonomous Agents）。GLM-4.1V-Thinking所具備的GUI Agent能力，讓它有潛力成為這一趨勢下的關鍵賦能工具，在未來的企業自動化和數字化轉型中發揮作用。

而根據官方信息，這次發布的9B模型只是一個開始，更大參數的版本也已“蓄勢待發”。這種持續投入開源的戰略，也獲得了資本市場的強力背書，就在7月2日，智譜宣布已獲得來自浦東創投和張江集團的10億元戰略投資。這筆資金將為其后續大模型的研發和開源生態的構建提供堅實保障。

總之，GLM-4.1V-Thinking的發布，值得關注的不只是它在評測數據上的優異表現。更重要的是，它向我們展示了一種可能性，通過讓AI的思考過程變得透明，并賦予其處理多樣化任務的全棧能力，AI正在從一個單純回答問題的“工具”，向一個能理解、規劃并執行任務的“智能助手”邁進。

最后，如果你想親自上手體驗GLM-4.1V-Thinking，或者將其集成到自己的項目中，可以訪問以下鏈接：

在線體驗

HuggingFace 體驗鏈接：https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

魔搭社區 (ModelScope) 體驗鏈接：https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

開源模型

Github:https://github.com/THUDM/GLM-4.1V-Thinking

Hugging Face:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d

ModelScope:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

API 服務

智譜MaaS開發平臺（bigmodel.cn）已同步上線GLM-4.1V-Thinking-Flash API，詳情可查閱：

API 使用指南：https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking

API 接口文檔：https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

論文：https://arxiv.org/abs/2507.01006

技術報告：https://arxiv.org/abs/2507.01006

點個愛心，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.