99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI秒懂短視頻,快手大模型Keye-VL理解力爆表!技術細節(jié)全開源

0
分享至


新智元報道

編輯:編輯部

【新智元導讀】今天,全新多模態(tài)大語言模型Kwai Keye-VL震撼上線,展現(xiàn)了無與倫比的視頻理解力!它能將視頻內容轉化為高能方案,還會智能選擇思考模型,效率與創(chuàng)意兼得。目前,模型已正式開源。

如果有人突然問你:這張圖片中有幾顆草莓」?你會如何快速回復?

面對五彩繽紛的果盤,我們往往需要反復端詳,放大圖片再逐一清點,耗費不少時間才能得到答案。

然而,AI大模型正讓這種復雜視覺識別變得簡單——在快手最新發(fā)布的Kwai Keye-VL-8B的試用體驗中,它自動解析圖像細節(jié),執(zhí)行圖像區(qū)域裁剪,放大相關的計算代碼以增強感知效果,在短短幾秒內給出精準答案,一共20顆。


Kwai Keye-VL是快手自主研發(fā)的多模態(tài)大語言模型。

該模型能深度融合和處理文本、圖像、視頻等多模態(tài)信息,憑借創(chuàng)新的自適應交互機制與動態(tài)推理能力,致力于為用戶打造更智能、更全面的多模態(tài)交互新范式。

其中,依托快手在短視頻的深厚技術積累,Keye-VL在視頻理解方面具備得天獨厚的優(yōu)勢。

實踐出真知!現(xiàn)在就把一個介紹簡易移動房子的視頻丟給Keye-VL,考考它能不能利用強大的視頻理解和推理能力,當場做出一份銷售方案來。

問題:請你為視頻中的商品寫一份推銷方案。

「看」完11秒的視頻后,Kwai Keye-VL很快便生成了一份推銷方案,覆蓋了方方面面,足以堪稱商品推銷的「優(yōu)秀模板」。


除在復雜視覺感知視頻理解上的優(yōu)異表現(xiàn)外,Kwai Keye-VL在邏輯推理上也同樣令人驚喜,在最新的2025高考全國數(shù)學卷中,Kwai Keye-VL狂砍140分。

目前,Kwai Keye-VL已正式開源!


Homepage: https://kwai-keye.github.io/

Github Repo: https://github.com/Kwai-Keye/Keye

Model Weight: https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview

KC-MMBench: https://huggingface.co/datasets/Kwai-Keye/KC-MMbench

接下來,讓我們一起探索支撐其強大多模態(tài)能力的關鍵技術突破。

核心技術架構公開

Kwai Keye-VL基于Qwen3-8B語言模型,并整合了SigLIP初始化的視覺編碼器。

它支持動態(tài)分辨率輸入,按原始比例將圖像切分為14x14分塊,由一個MLP層整合這些視覺特征。

模型采用3D RoPE(旋轉位置編碼)統(tǒng)一處理文本、圖像和視頻,并通過位置編碼與時間戳對齊,精準捕捉視頻時序變化。


Pre-Train:構建多模態(tài)基座能力

Kwai Keye-VL的預訓練階段核心目標是,構建強大的圖文和視頻理解能力(即視覺-語言對齊)。

為支撐這一目標,模型使用了總量高達600B的大規(guī)模多模態(tài)預訓練數(shù)據(jù)集,包含圖文、視頻及純文本數(shù)據(jù)。

此外,Kwai Keye-VL通過自建高質量中文OCR系統(tǒng)和精細化描述數(shù)據(jù),有效突破了開源數(shù)據(jù)的局限,專門服務于模型圖文/視頻理解能力的訓練。

訓練流程采用四階段漸進式優(yōu)化策略:


  • 視覺預訓練:持續(xù)預訓練視覺編碼器,使其適配內部數(shù)據(jù)分布并支持動態(tài)分辨率輸入。

  • 跨模態(tài)對齊:凍結主干模型,僅訓練輕量級MLP適配器,以極低成本高效建立魯棒的圖文/視頻-文本對齊關系。

  • 多任務預訓練:解鎖全部模型參數(shù),進行多任務聯(lián)合訓練,全面提升模型的綜合視覺理解能力。

  • 退火訓練:使用精選高質量數(shù)據(jù)進行精調,進一步提升模型的精細理解和判別能力。

最后,Kwai Keye-VL探索了同構異質融合技術,通過參數(shù)平均融合不同數(shù)據(jù)配比的退火訓練模型,在保留多維度能力的同時,減小模型偏差,增強了模型的魯棒性。

Post-Train:兩階段精細微調,突破性強化推理能力

Kwai Keye-VL的后訓練階段經(jīng)過精心設計,旨在全面提升模型的性能,尤其是其在復雜任務中的推理能力,這一部分是模型實現(xiàn)高級認知功能的關鍵突破。

Stage I. 非推理訓練(No-Reasoning Training):夯實基礎性能Kwai Keye-VL首先進行監(jiān)督微調(SFT),使用500萬條高質量多模態(tài)VQA數(shù)據(jù),數(shù)據(jù)多樣性由自研TaskGalaxy方案建立的任務體系(包含7W種任務)保證,數(shù)據(jù)質量經(jīng)AI篩選困難樣本及人工標注保障;

隨后進行混合偏好優(yōu)化(MPO),結合開源數(shù)據(jù)與自建的偏好數(shù)據(jù),后者通過收集SFT錯誤樣本作提問素材、Qwen2.5VL 72B與SFT模型生成答案對、人工排序獲得。


Stage II. 推理訓練Reasoning Training:核心突破,賦能復雜認知

此階段是Kwai Keye-VL訓練流程的最大亮點與貢獻,通過引入Mix-mode的思維鏈(CoT)和多思考模式強化學習(RL)機制,顯著提升模型的多模態(tài)感知、推理和think with image能力,使其能夠處理更復雜、需要多步思考的任務。

思維鏈冷啟動階段CoT Cold-Start)通過混合四種推理模式的訓練數(shù)據(jù),實現(xiàn)對模型思維鏈能力的零基礎激活,使其初步掌握人類分步思考的推理范式。

混合強化學習階段(CoT-Mix RL)在冷啟動基礎上,采用GRPO算法進行混合模式強化學習,通過創(chuàng)新的雙軌獎勵機制(同步評估結果正確性與過程一致性)深度優(yōu)化多模態(tài)感知、數(shù)學推理、短視頻理解及智能體協(xié)同等綜合能力,顯著提升模型的推理能力。

多輪迭代對齊階段(Iterative Alignment)利用MPO算法對優(yōu)劣數(shù)據(jù)對進行多輪迭代,根治內容重復崩潰與邏輯斷層問題,最終賦予模型根據(jù)問題復雜度智能選擇深度推理模式的自適應能力,實現(xiàn)性能與穩(wěn)定性的雙重突破。

Kwai Keye-VL通過分階段、精細化的預訓練與后訓練策略,特別是對推理能力的深度強化與創(chuàng)新性突破,確保了模型在多種復雜場景下都能提供高質量、邏輯嚴謹且穩(wěn)定的輸出。

訓練架構優(yōu)化:高效穩(wěn)定的百億參數(shù)模型訓練

為實現(xiàn)百億參數(shù)模型的高效穩(wěn)定訓練,Kwai Keye-VL通過混合并行策略(整合數(shù)據(jù)并行/序列并行/ZeRO技術)顯著提升訓練吞吐量,既利用顯存分片降低壓力,又通過計算通信重疊隱藏延遲。

不同于純文本模型訓練,多模態(tài)輸入分辨率差異很大,不同顯卡計算負載不均會導致整體利用率降低,Kwai Keye-VL在訓練框架中實現(xiàn)了全局負載均衡策略,依據(jù)樣本FLOPS動態(tài)分發(fā)樣本,盡可能消除硬件閑置,顯著提高了多模態(tài)訓練的MFU。創(chuàng)新性構建樣本級自動容錯機制,依托聯(lián)合檢查點技術使訓練意外中斷后可自動精準續(xù)訓無需人工介入。

后訓練階段通過升級vLLM框架加速采樣,并部署多獎勵模型隨機分發(fā)策略,大幅壓縮強化學習的計算耗時,系統(tǒng)性保障了大規(guī)模訓練的穩(wěn)定性與效率。

模型評估

· 視覺理解/邏輯推理Benchmark

Kwai Keye-VL在綜合感知能力比肩同規(guī)模頂尖模型的同時,在復雜推理任務中展現(xiàn)出顯著領先優(yōu)勢。

評測數(shù)據(jù)顯示:其基礎感知達行業(yè)一流水準;而在MMMU、MMStar等通用Benchmark及MathVista、OlympiadBench等推理Benchmark上,該模型性能曲線大幅領跑業(yè)界,尤其在需要高階邏輯推理與數(shù)學解題的挑戰(zhàn)性任務中,凸顯出卓越的復雜問題解決能力。


· 視頻理解Benchmark

Kwai Keye-VL通過公開與自建評測雙驗證,在學術標準與真實短視頻場景中均展現(xiàn)出全面領先優(yōu)勢。

為突破公開數(shù)據(jù)集的數(shù)據(jù)污染、語言覆蓋局限及任務單一性等問題,快手構建了內部評測集KC-MMBench。

結果顯示,該模型在VideoMME等權威公開Benchmark中以67.4分超越Qwen2.5-VL-7B(62.7)與InternVL-3-8B(65.5);

在內部短視頻場景評測中優(yōu)勢進一步擴大,綜合得分領先SOTA模型超10%,尤其在熱點聚合、內容合集、廣告價值等核心場景表現(xiàn)卓越,實證其學術與產(chǎn)業(yè)雙維競爭力。


當大模型的風暴席卷交互的疆界,重塑我們認知與交互的方式,Kwai Keye-VL——這顆由快手精心鍛造的視覺-語言「智能火種」,正在視頻理解的沃土上,燃起一場顛覆性的燎原之火!

這亦是Keye注入時代的核心動能,一場始于理解、終于交互的智能覺醒!

此刻,就讓我們以一首詩,為這段探索的華章作結,跟隨Keye的視角,感受智能之眼所洞見的壯闊未來……

提問:結合如下這張圖片,寫一首詩


參考資料:

https://kwai-keye.github.io/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俗稱“水米子”,30年前江里很多,上岸就死,至今無法規(guī)模化養(yǎng)殖

俗稱“水米子”,30年前江里很多,上岸就死,至今無法規(guī)模化養(yǎng)殖

貍貓之一的動物圈
2025-06-25 09:59:53
劉畊宏做客鐘麗緹北京豪宅,趕飯點吃六個菜,家里有倆保姆照顧她

劉畊宏做客鐘麗緹北京豪宅,趕飯點吃六個菜,家里有倆保姆照顧她

清游說娛
2025-06-18 11:14:39
楊瀚森:很喜歡20歲的生日禮物,沒辜負19歲的自己,你好NBA!

楊瀚森:很喜歡20歲的生日禮物,沒辜負19歲的自己,你好NBA!

林小湜體育頻道
2025-06-26 12:45:55
就在門頭溝!北京唯一國家一級重點保護野生植物,從2株擴繁至近500株

就在門頭溝!北京唯一國家一級重點保護野生植物,從2株擴繁至近500株

西山大喇叭
2025-06-26 12:29:48
人過80歲,只剩歸途,聰明的老人,會提前準備好這5件事

人過80歲,只剩歸途,聰明的老人,會提前準備好這5件事

小鬼頭體育
2025-06-26 09:51:38
中國女排比賽推遲!原因讓人無奈,唯一女教練帶隊,訓練可以暫停

中國女排比賽推遲!原因讓人無奈,唯一女教練帶隊,訓練可以暫停

跑者排球視角
2025-06-25 23:56:08
尼日爾暫緩 4 億美元款項并調整中企人員,我方早有預案妥善應對

尼日爾暫緩 4 億美元款項并調整中企人員,我方早有預案妥善應對

星宇共鳴
2025-05-21 17:58:05
警方通告!常州又一家公司暴雷!

警方通告!常州又一家公司暴雷!

常州大喇叭
2025-06-25 15:24:07
“老泄殘精,人窮壽盡”,提醒:60歲以后,牢記三不要

“老泄殘精,人窮壽盡”,提醒:60歲以后,牢記三不要

有故事的人
2025-06-25 06:32:14
2025高考狀元大洗牌:河南與湖南的傳統(tǒng)強校均顆粒無收,太意外!

2025高考狀元大洗牌:河南與湖南的傳統(tǒng)強校均顆粒無收,太意外!

涵豆說娛
2025-06-26 10:40:15
獲D評分遭看衰,為何開拓者敢16順位跳選楊瀚森?5大理由給出答案

獲D評分遭看衰,為何開拓者敢16順位跳選楊瀚森?5大理由給出答案

鍋子籃球
2025-06-26 11:41:52
開拓者GM羅寧:我們關注楊瀚森很久了,16號簽再不選后面可就不保險了!

開拓者GM羅寧:我們關注楊瀚森很久了,16號簽再不選后面可就不保險了!

雷速體育
2025-06-26 15:12:11
曝王政源已開始退贓款,母親出面,請求簽和解協(xié)議,受害者曬轉賬

曝王政源已開始退贓款,母親出面,請求簽和解協(xié)議,受害者曬轉賬

大笑江湖史
2025-06-26 11:28:00
戰(zhàn)火未歇經(jīng)濟先崩:以色列超10萬家公司已倒閉

戰(zhàn)火未歇經(jīng)濟先崩:以色列超10萬家公司已倒閉

敏睿縱覽
2025-06-23 16:10:02
亞足聯(lián)處罰中國足協(xié)!

亞足聯(lián)處罰中國足協(xié)!

FM93浙江交通之聲
2025-06-25 20:35:59
小楊哥倒臺竟是國家出手,三只羊迎來離職風波!內部紛紛爆料

小楊哥倒臺竟是國家出手,三只羊迎來離職風波!內部紛紛爆料

觀察鑒娛
2025-06-24 10:38:30
國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監(jiān)禁后驅離出境

國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監(jiān)禁后驅離出境

大白聊IT
2025-06-14 22:40:59
楊瀚森第16順位被選中!NBA高管:這是我見過的最瘋狂的選秀

楊瀚森第16順位被選中!NBA高管:這是我見過的最瘋狂的選秀

雷速體育
2025-06-26 10:25:29
東風15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風

東風15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風

科學知識點秀
2025-06-26 07:00:13
Skip:當初馬威在湖人體檢未通過,實屬湖人管理層臨時變卦

Skip:當初馬威在湖人體檢未通過,實屬湖人管理層臨時變卦

雷速體育
2025-06-26 16:28:13
2025-06-26 17:07:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
12955文章數(shù) 66078關注度
往期回顧 全部

科技要聞

奧特曼剛警告完 Meta就挖走OpenAI三名大將

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經(jīng)要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

奇瑞最大轎車 風云A9L把VIP待遇和續(xù)航焦慮一起解決

態(tài)度原創(chuàng)

游戲
房產(chǎn)
旅游
手機
公開課

CS2明星選手喜提保時捷911:車牌"幀數(shù)"很高很電競

房產(chǎn)要聞

最強黑馬殺出!海南這些區(qū)域,教育正悄悄崛起!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

Nothing Phone (3) 手機跑分曝光:驍龍 8s Gen 4芯片、16GB 內存

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 桂东县| 黄大仙区| 麦盖提县| 大姚县| 怀集县| 集贤县| 辽宁省| 蛟河市| 西充县| 越西县| 白水县| 宜都市| 富阳市| 延长县| 裕民县| 昆山市| 永宁县| 龙胜| 喀喇沁旗| 增城市| 彭州市| 章丘市| 延川县| 西城区| 孟津县| 琼海市| 双鸭山市| 四子王旗| 普兰店市| 新建县| 修武县| 宣汉县| 巩留县| 霍林郭勒市| 介休市| 湖南省| 高要市| 东平县| 孟津县| 宣城市| 温州市|