網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI秒懂短視頻，快手大模型Keye-VL理解力爆表！技術細節(jié)全開源

2025-06-26 11:51:13　來源: 新智元

北京舉報

分享至

新智元報道

編輯：編輯部

【新智元導讀】今天，全新多模態(tài)大語言模型Kwai Keye-VL震撼上線，展現(xiàn)了無與倫比的視頻理解力！它能將視頻內容轉化為高能方案，還會智能選擇思考模型，效率與創(chuàng)意兼得。目前，模型已正式開源。

如果有人突然問你：「這張圖片中有幾顆草莓」？你會如何快速回復？

面對五彩繽紛的果盤，我們往往需要反復端詳，放大圖片再逐一清點，耗費不少時間才能得到答案。

然而，AI大模型正讓這種復雜視覺識別變得簡單——在快手最新發(fā)布的Kwai Keye-VL-8B的試用體驗中，它自動解析圖像細節(jié)，執(zhí)行圖像區(qū)域裁剪，放大相關的計算代碼以增強感知效果，在短短幾秒內給出精準答案，一共20顆。

Kwai Keye-VL是快手自主研發(fā)的多模態(tài)大語言模型。

該模型能深度融合和處理文本、圖像、視頻等多模態(tài)信息，憑借創(chuàng)新的自適應交互機制與動態(tài)推理能力，致力于為用戶打造更智能、更全面的多模態(tài)交互新范式。

其中，依托快手在短視頻的深厚技術積累，Keye-VL在視頻理解方面具備得天獨厚的優(yōu)勢。

實踐出真知！現(xiàn)在就把一個介紹簡易移動房子的視頻丟給Keye-VL，考考它能不能利用強大的視頻理解和推理能力，當場做出一份銷售方案來。

問題：請你為視頻中的商品寫一份推銷方案。

「看」完11秒的視頻后，Kwai Keye-VL很快便生成了一份推銷方案，覆蓋了方方面面，足以堪稱商品推銷的「優(yōu)秀模板」。

除在復雜視覺感知、視頻理解上的優(yōu)異表現(xiàn)外，Kwai Keye-VL在邏輯推理上也同樣令人驚喜，在最新的2025高考全國數(shù)學卷中，Kwai Keye-VL狂砍140分。

目前，Kwai Keye-VL已正式開源！

Homepage: https://kwai-keye.github.io/

Github Repo: https://github.com/Kwai-Keye/Keye

Model Weight: https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview

KC-MMBench: https://huggingface.co/datasets/Kwai-Keye/KC-MMbench

接下來，讓我們一起探索支撐其強大多模態(tài)能力的關鍵技術突破。

核心技術架構公開

Kwai Keye-VL基于Qwen3-8B語言模型，并整合了SigLIP初始化的視覺編碼器。

它支持動態(tài)分辨率輸入，按原始比例將圖像切分為14x14分塊，由一個MLP層整合這些視覺特征。

模型采用3D RoPE（旋轉位置編碼）統(tǒng)一處理文本、圖像和視頻，并通過位置編碼與時間戳對齊，精準捕捉視頻時序變化。

Pre-Train：構建多模態(tài)基座能力

Kwai Keye-VL的預訓練階段核心目標是，構建強大的圖文和視頻理解能力（即視覺-語言對齊）。

為支撐這一目標，模型使用了總量高達600B的大規(guī)模多模態(tài)預訓練數(shù)據(jù)集，包含圖文、視頻及純文本數(shù)據(jù)。

此外，Kwai Keye-VL通過自建高質量中文OCR系統(tǒng)和精細化描述數(shù)據(jù)，有效突破了開源數(shù)據(jù)的局限，專門服務于模型圖文/視頻理解能力的訓練。

訓練流程采用四階段漸進式優(yōu)化策略：

視覺預訓練：持續(xù)預訓練視覺編碼器，使其適配內部數(shù)據(jù)分布并支持動態(tài)分辨率輸入。
跨模態(tài)對齊：凍結主干模型，僅訓練輕量級MLP適配器，以極低成本高效建立魯棒的圖文/視頻-文本對齊關系。
多任務預訓練：解鎖全部模型參數(shù)，進行多任務聯(lián)合訓練，全面提升模型的綜合視覺理解能力。
退火訓練：使用精選高質量數(shù)據(jù)進行精調，進一步提升模型的精細理解和判別能力。

最后，Kwai Keye-VL探索了同構異質融合技術，通過參數(shù)平均融合不同數(shù)據(jù)配比的退火訓練模型，在保留多維度能力的同時，減小模型偏差，增強了模型的魯棒性。

Post-Train：兩階段精細微調，突破性強化推理能力

Kwai Keye-VL的后訓練階段經(jīng)過精心設計，旨在全面提升模型的性能，尤其是其在復雜任務中的推理能力，這一部分是模型實現(xiàn)高級認知功能的關鍵突破。

Stage I. 非推理訓練（No-Reasoning Training）：夯實基礎性能Kwai Keye-VL首先進行監(jiān)督微調（SFT），使用500萬條高質量多模態(tài)VQA數(shù)據(jù)，數(shù)據(jù)多樣性由自研TaskGalaxy方案建立的任務體系（包含7W種任務）保證，數(shù)據(jù)質量經(jīng)AI篩選困難樣本及人工標注保障；

隨后進行混合偏好優(yōu)化（MPO），結合開源數(shù)據(jù)與自建的偏好數(shù)據(jù)，后者通過收集SFT錯誤樣本作提問素材、Qwen2.5VL 72B與SFT模型生成答案對、人工排序獲得。

Stage II. 推理訓練（Reasoning Training）：核心突破，賦能復雜認知

此階段是Kwai Keye-VL訓練流程的最大亮點與貢獻，通過引入Mix-mode的思維鏈（CoT）和多思考模式強化學習（RL）機制，顯著提升模型的多模態(tài)感知、推理和think with image能力，使其能夠處理更復雜、需要多步思考的任務。

思維鏈冷啟動階段（CoT Cold-Start）通過混合四種推理模式的訓練數(shù)據(jù)，實現(xiàn)對模型思維鏈能力的零基礎激活，使其初步掌握人類分步思考的推理范式。

混合強化學習階段（CoT-Mix RL）在冷啟動基礎上，采用GRPO算法進行混合模式強化學習，通過創(chuàng)新的雙軌獎勵機制（同步評估結果正確性與過程一致性）深度優(yōu)化多模態(tài)感知、數(shù)學推理、短視頻理解及智能體協(xié)同等綜合能力，顯著提升模型的推理能力。

多輪迭代對齊階段（Iterative Alignment）利用MPO算法對優(yōu)劣數(shù)據(jù)對進行多輪迭代，根治內容重復崩潰與邏輯斷層問題，最終賦予模型根據(jù)問題復雜度智能選擇深度推理模式的自適應能力，實現(xiàn)性能與穩(wěn)定性的雙重突破。

Kwai Keye-VL通過分階段、精細化的預訓練與后訓練策略，特別是對推理能力的深度強化與創(chuàng)新性突破，確保了模型在多種復雜場景下都能提供高質量、邏輯嚴謹且穩(wěn)定的輸出。

訓練架構優(yōu)化：高效穩(wěn)定的百億參數(shù)模型訓練

為實現(xiàn)百億參數(shù)模型的高效穩(wěn)定訓練，Kwai Keye-VL通過混合并行策略（整合數(shù)據(jù)并行/序列并行/ZeRO技術）顯著提升訓練吞吐量，既利用顯存分片降低壓力，又通過計算通信重疊隱藏延遲。

不同于純文本模型訓練，多模態(tài)輸入分辨率差異很大，不同顯卡計算負載不均會導致整體利用率降低，Kwai Keye-VL在訓練框架中實現(xiàn)了全局負載均衡策略，依據(jù)樣本FLOPS動態(tài)分發(fā)樣本，盡可能消除硬件閑置，顯著提高了多模態(tài)訓練的MFU。創(chuàng)新性構建樣本級自動容錯機制，依托聯(lián)合檢查點技術使訓練意外中斷后可自動精準續(xù)訓無需人工介入。

后訓練階段通過升級vLLM框架加速采樣，并部署多獎勵模型隨機分發(fā)策略，大幅壓縮強化學習的計算耗時，系統(tǒng)性保障了大規(guī)模訓練的穩(wěn)定性與效率。

模型評估

· 視覺理解/邏輯推理Benchmark

Kwai Keye-VL在綜合感知能力比肩同規(guī)模頂尖模型的同時，在復雜推理任務中展現(xiàn)出顯著領先優(yōu)勢。

評測數(shù)據(jù)顯示：其基礎感知達行業(yè)一流水準；而在MMMU、MMStar等通用Benchmark及MathVista、OlympiadBench等推理Benchmark上，該模型性能曲線大幅領跑業(yè)界，尤其在需要高階邏輯推理與數(shù)學解題的挑戰(zhàn)性任務中，凸顯出卓越的復雜問題解決能力。

· 視頻理解Benchmark

Kwai Keye-VL通過公開與自建評測雙驗證，在學術標準與真實短視頻場景中均展現(xiàn)出全面領先優(yōu)勢。

為突破公開數(shù)據(jù)集的數(shù)據(jù)污染、語言覆蓋局限及任務單一性等問題，快手構建了內部評測集KC-MMBench。

結果顯示，該模型在VideoMME等權威公開Benchmark中以67.4分超越Qwen2.5-VL-7B（62.7）與InternVL-3-8B（65.5）；

在內部短視頻場景評測中優(yōu)勢進一步擴大，綜合得分領先SOTA模型超10%，尤其在熱點聚合、內容合集、廣告價值等核心場景表現(xiàn)卓越，實證其學術與產(chǎn)業(yè)雙維競爭力。

當大模型的風暴席卷交互的疆界，重塑我們認知與交互的方式，Kwai Keye-VL——這顆由快手精心鍛造的視覺-語言「智能火種」，正在視頻理解的沃土上，燃起一場顛覆性的燎原之火！

這亦是Keye注入時代的核心動能，一場始于理解、終于交互的智能覺醒！

此刻，就讓我們以一首詩，為這段探索的華章作結，跟隨Keye的視角，感受智能之眼所洞見的壯闊未來……

提問：結合如下這張圖片，寫一首詩

參考資料：

https://kwai-keye.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.