作者|子川
來源|AI先鋒官
安靜許久的kimi,終于又有新動作了!
近日,Kimi團隊甩出一套組合拳——視覺語言模型Kimi-VL及其推理版Kimi-VL-Thinking雙雙開源!
這波操作直接把多模態+推理全都給拿捏了。
據介紹,兩款模型都是具有 28 億激活參數、160 億總參數的 MoE 結構的多模態模型,支持128K上下文窗口,同時采用的是比較寬松的MIT許可證。
模型雖小,但和同層次模型相比,跑分成績絲毫不差!
Kimi-VL在MMMU、MMBench等通用基準測試中的表現出色,超越了Qwen2.5-VL-7B、GPT-4o等多模態模型,在多項中測中取得第一的成績。
相較于基礎版的Kimi-VL,支持長思考的Kimi-VL-Thinking會更強,在 MathVista 上提升了 2.6%,在 MMMU 上提升了 4.7%,在 MathVision 上提升了 15.4%。
同時kimi團隊表示, 盡管Kimi-VL-Thinking 是個只有 2.8B 激活參數的輕量級模型,但在有較高推理難度的基準測試(包括 MMMU,MathVision,MathVista)中,部分成績可以接近甚至超過超大尺寸的前沿模型。
目前兩款模型均已上架Hugging Face,大家進行下載并部署到自己的程序上去使用。
Hugging Face 模型下載:
https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct、https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking
那這款只有 2.8B 激活參數的輕量級模型到底是如何媲美參數大10倍的模型的呢?
下面我們來扒一下Kimi此次公開的技術報告。
模型架構
Kimi-VL和Kimi-VL-Thinking主要由三大部分構成:一個原生分辨率視覺編碼器(MoonViT)、一個 MLP 投影儀以及一個混合專家(MoE)語言模型。
MoE 語言模型:語言生成模塊
僅激活 2.8B 參數(總參數 16B),顯著降低了計算成本,同時保持了強大的性能。
與傳統的密集架構相比,MoE 架構通過稀疏激活專家網絡,實現了更高的效率和擴展性。
MoonViT:圖像處理模塊
設計出的MoonViT,可以讓它可以直接處理不同分辨率的圖像,而不需要復雜的切割和拼接操作。
這里使用了一種方法,把圖像切成小塊,然后拼成一維序列。這樣可以讓 MoonViT 和語言模型共享計算方式,比如用 FlashAttention 技術處理不同長度的圖像數據,確保不同分辨率的圖像都能高效訓練。
MLP 投影儀:連接模塊
MLP 投影儀是一個兩層的網絡,用來連接圖像處理模塊和語言模型。它會先壓縮圖像特征的空間維度(比如 2×2 下采樣),然后擴展通道維度,最后將特征轉換為語言模型可以理解的形式。
數據處理與訓練
多樣化數據集:Kimi-VL 的預訓練數據涵蓋文本、圖像、視頻等多種模態,包括字幕數據、OCR 數據、知識數據和視頻數據等,確保模型在不同任務中的廣泛適用性。
漸進式訓練策略:模型通過多階段訓練(如 ViT 預訓練、聯合預訓練、長上下文激活等)逐步提升語言和多模態能力,同時保留文本生成能力。
高效優化器(Muon):使用增強版的 Muon 優化器,結合分布式實現和內存優化策略(如 ZeRO-1 和選擇性檢查點),顯著提高了訓練效率。
更多細節感興趣可以查閱原論文。
論文地址:https://arxiv.org/abs/2504.07491v1#
最后,給大家分享一下大彩蛋。
在今年3月,基于Kimi-K1.6的數學模型被曝光了出來,在編程基準測試LiveCodeBench中超越o3、DeepSeek-R1等模型,取得第一的好成績。
難怪kimi這幾個月沒有一點動靜,原來是在在蒙聲干大事。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.