GLM-4.1V-9B-Thinking標志著GLM系列視覺模型實現從感知走向認知的關鍵躍遷。
據IPO早知道消息,GLM-4.1V-9B-Thinking憑借9B的模型尺寸,日前成功登頂HuggingFace Trending第一。
作為一款支持圖像、視頻、文檔等多模態輸入的通用推理型大模型,GLM-4.1V-Thinking專為復雜認知任務設計。它在 GLM-4V 架構基礎上引入“思維鏈推理機制(Chain-of-Thought Reasoning)”,采用“課程采樣強化學習策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,系統性提升模型跨模態因果推理能力與穩定性。
其輕量版 GLM-4.1V-9B-Thinking 模型參數控制在10B級別,在兼顧部署效率的同時實現性能突破。該模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld 等28項權威評測中,有23項達成10B級模型的最佳成績,其中18項更是持平或超越參數量高達72B的Qwen-2.5-VL,充分展現了小體積模型的極限性能潛力。
通過有效的混合訓練,GLM-4.1V-9B-Thinking融合了豐富的多模態模型能力,包括但不限于:
視頻理解:能夠解析最長兩小時的視頻內容,通過推理對視頻中的時間、人物、事件和邏輯關系進行準確分析;
圖像問答:對圖像中的內容進行深入分析和解答,具備較強的邏輯能力和世界知識;
學科解題:支持對數學、物理、生物、化學等學科問題的看圖解題,通過推理給出詳細的思考過程;
文字識別:對圖片和視頻中的文字和圖表內容進行準確抽取和結構化輸出;
文檔解讀:對金融、政務、教育等領域的文檔內容進行準確的原生理解、抽取、提煉和問答;
Grounding:識別圖片中的特定區域并抽取坐標位置,支持各種需要定位信息的下游任務;
GUI Agent:識別網頁、電腦屏幕、手機屏幕等交互界面元素,支持點擊、滑動等指令執行能力;
代碼生成:能夠基于輸入的圖片文字內容自動編寫前端代碼,看圖寫網頁。
某種程度上而言,GLM-4.1V-9B-Thinking標志著GLM系列視覺模型實現從感知走向認知的關鍵躍遷。
本文為IPO早知道原創
作者|Stone Jin
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.