99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

vivo發端側多模態模型,只有3B可理解GUI界面,20項評測表現亮眼

0
分享至

vivo AI Lab 投稿
量子位 | 公眾號 QbitAI

vivo AI Lab發布AI多模態新模型了,專門面向端側設計,緊湊高效~

能夠直接理解GUI頁面的那種:



模型BlueLM-2.5-3B,融合文本和圖文的理解和推理能力,支持長短思考模式自由切換,并引入思考預算控制機制。

與同尺寸模型相比,BlueLM-2.5-3B在多個文本與多模態評測任務中表現出色。



BlueLM-2.5-3B支持思考預算控制(thinking token budget),有效平衡思考深度和推理成本:



兼具多模態推理和文本的推理能力,思考范圍擴展:



另外值得一提的是,作者對模型結構與訓練策略進行了深度優化,顯著降低了訓練和推理成本。通過優質數據篩選、自動配比策略以及大規模推理合成數據,模型的數據利用效率大幅提升。

同時,模型訓練全過程由自建的高性能訓練平臺與框架高效支撐,確保了訓練效率和訓練穩定性。

以下是更多細節。

在20余項評測任務中表現出色

BlueLM-2.5-3B在20余項評測任務中展現出如下核心優勢:

1、文本任務表現出色,緩解能力遺忘難題

BlueLM-2.5-3B在thinking、non-thinking不同模式下,在文本任務上與同規模文本模型Qwen3-4B效果相近,領先于同規模以及更大規模的多模態模型

這主要得益于數據策略以及訓練策略較好地緩解了困擾多模態模型訓練的文本能力遺忘難題。

thinking模式下,與4B以下同規模具有思考模式的文本模型Qwen3-4B-thinking相比,BlueLM-2.5-3B除代碼類任務外其他大部分文本任務效果相近;與同規模多模態模型如Qwen2.5-VL-3B相比指標全面領先;與更大規模的具有思考模式的多模態模型Kimi-VL-A3B-16B-thinking相比,文本效果全面領先。

thinking模式下推理類任務(如Math-500、GSM8K、AIME)效果也顯著優于更大規模的沒有thinking模式的模型如 Qwen2.5-VL-72B。



non-thinking模式下,與同規模文本模型Qwen3-4B-non-thinking相比,文本效果相當。

明顯優于同規模多模態模型Qwen2.5-VL-3B、Gemma3-4B,其中推理類任務如Math-500、BBH、AMIE24、AIME25優勢更為明顯。

與更大規模多模態模型Kimi-VL-A3B-16B-non-thinking 相比全部指標均更優,尤其是推理類任務的優勢更明顯。



2、多模態理解能力領先同規模模型

BlueLM-2.5-3B在thinking、non-thinking不同模式下,在多模態任務上領先于同規模多模態模型,與更大規模的多模態模型效果相近

thinking模式下,與更大規模模型Kimi-VL-A3B-16B-thinking相比,大多數評測任務的差距在5%以內;在推理相關任務如MathVista和MathVision的效果優于沒有thinking模式的Qwen2.5-VL-72B。



non-thinking模式下,與同規模模型Qwen2.5-VL-3B相比,指標全面領先,其中推理類任務Mathvista、Mathvision優勢明顯;與Gemma-3-4B相比效果更優;與更大規模模型Kimi-VL-A3B-16B-non-thinking相比,超過半數指標領先,其余指標差距在5%以內;與行業領先模型相比,一半左右評測集差距在5%以內。



3、同時支持文本和多模態的長短思考以及思考預算控制

上述評測結果顯示,BlueLM-2.5-3B 同時具備了文本與多模態的thinking 模式。長思考模式顯著提升復雜推理任務上的模型效果。

例如,在AIME25 任務中thinking模式較之non-thinking 模式提高達40分,在MathVision 任務中提高達19.2分。



4、GUI理解能力領先同規模模型

與同規模模型相比,BlueLM-2.5-3B在GUI grounding指標上全面領先,例如ScreenSpot、ScreenSpot V2、ScreenSpot Pro的得分均超過了Qwen2.5-VL-3B和UI-TARS-2B。

與更大規模模型如Qwen2.5-VL-7B、UI-TARS 7B相比存在一定差距。得益于采集標注了大量中文app截屏數據,在中文評測集ScreenSpot vivo得分高于其他模型。



精巧模型結構與高效訓練

為支撐模型上述效果,BlueLM-2.5-3B設計了精巧緊湊的模型結構和高效的訓練策略。

模型結構

BlueLM-2.5-3B面向端側部署,參數量僅2.9B,比同規模的模型如Qwen2.5-VL-3B小22%以上,具有訓練和推理的成本優勢。



BlueLM-2.5-3B模型由ViT、Adapter、LLM組成。如圖所示:



ViT采用400M參數量的SigLIP2(so400m-patch14-384)。 采用AnyRes方案支持動態分辨率,最大圖像輸入1512×1512。切完子圖后,固定長度token便于端側部署,且子圖并行推理,推理耗隨輸入token數量線性增長。此外,小尺寸ViT也有助于進一步降低功耗。

圖像token經Adapter投影后接入LLM Decoder。

下圖展示了BlueLM-2.5-3B優秀的ViT推理性能:



預訓練策略

文本和多模態的預訓練共分為4個階段:



1、文本數據預訓練策略(Pure-Text Pre-training Stage)

LLM Decoder參數采用文本模型初始化。文本模型采用了“大模型裁剪+蒸餾”的三階段訓練策略,包括普通預訓練(General Pre-training)、快速衰減(Fast-Decay, FD)和微調(SFT)。

首先訓練7B教師模型并裁剪得到3B文本模型,再繼續用3T tokens蒸餾預訓練以及300B tokens FD蒸餾訓練。

相比從零訓練的同尺寸模型,性能提升超 4%。

2、文本和圖文數據聯合預訓練(Joint Pre-training Stage)

先凍結ViT和LLM參數,利用2.5M條圖文對數據訓練Adapter;再解凍全參數進行全量訓練。

通過設置64M的大batch size、統一12T tokens全局學習率衰減調度及對ViT的分層學習率控制,有效提升了訓練效率與穩定性。

這一階段,作者實現了訓練流程簡化,省略了一般方案中ViT+Adapter的單獨訓練階段,直接全量訓練。



3、推理增強數據的繼續訓練(Reasoning-Enhanced Stage)

作者在文本數據中提升STEM、編程、邏輯推理以及高質量合成數據的占比。

合成數據覆蓋了短COT和長COT數據。在多模態數據中引入大量高質量的推理相關的圖文問答對。這一階段共使用2.5T tokens數據。

將文本任務的推理增強訓練后置到多模態階段,有效避免了文本推理能力遺忘,提升了訓練效率。

4、快速衰減與長文聯合訓練(JointFast-decay and Long-context Activation Stage)

快速衰減階段同時進行長文訓練。位置編碼從 Rope調整為 Yarn。

這一階段使用1.3T tokens,序列長度從4K擴展到32K。通過逐步將原生長文和高質量長推理數據占比增至80%以上、減小Global Batch Size,有效提升模型的長思考能力。

后訓練策略

BlueLM-2.5-3B的后訓練分為2個階段:

1、SFT訓練

SFT階段將文本與多模態任務聯合微調,引入特殊token [|BlueThink|] 控制思考模式是否觸發。這一階段序列長度保持為32K。根據學習難度差異,作者將常規COT數據訓練3 epoch,長COT數據訓練9 epoch。

2、RL訓練

RL階段混合使用了基于人類偏好反饋的強化學習(RLHF)方法和基于可驗證獎勵的強化學習(RLVR)方法,使用GRPO算法進行優化。

開放問答類任務,使用RLHF方法。對文本寫作、總結等任務,使用生成式獎勵模型從相關性、準確性、有用性、冗余性維度進行打分優化;而模型安全能力的提升,則使用判別式獎勵模型進行優化。

對有明確答案或評測標準的任務,如數學、代碼等推理相關任務,使用RLVR方法。作者使用規則結合verify模型進行正確性打分,最終獎勵分數綜合考慮答案正確性、格式正確性和重復情況和長度,其中為了優化模型“過度思考”的問題,作者引入“Group Overlong”的長度懲罰機制。

高質量訓練數據

模型性能背后離不開高質量訓練數據的支持。BlueLM-2.5-3B的訓練數據有如下特點:

1)相較于同規模模型如Qwen2.5-VL-3B,預訓練數據總量減少了約23%,這主要得益于對文本模型訓練數據的有效壓縮。文本模型訓練數據僅為Qwen3-4B 的25%、Qwen2.5的48%。

2)BlueLM-2.5-3B的多模態預訓練數據顯著多于其他模型,主要因為文本推理能力訓練后置合并到多模態訓練階段。累計引入3.3T tokens推理增強數據,為小模型具備較強推理能力奠定了堅實的數據基礎。



文本預訓練數據

文本模型預訓練階段共計使用9.3T tokens,其中6T tokens用于教師模型訓練,3.3T tokens 用于學生模型的蒸餾訓練。

多模態預訓練數據

多模態模型的預訓練數據為4T tokens,涵蓋Image Caption、OCR、GUI、純文本以及其他類型數據。其中純文本1.6T,圖文對2.4T。通過將文本數據占比提升至40%,有效緩解了多模態預訓練階段文本能力遺忘問題。

另外,從預訓練階段開始就引入GUI等業務相關數據,有效提升基模在業務場景的能力上限。

推理訓練數據

作者構建兩階段的數據合成pipeline生產大規模推理數據,第一階段通過多種途徑獲取原始問題并改寫擴充規模。第二階段通過多次采樣同一問題獲得不同的推理路徑,結合規則檢查、拒絕采樣以及投票技術篩選高質量答案。

長文本數據

作者引入了由長文本與圖文混合構成的長上下文訓練數據。在原生長文本數據的基礎上,引入高質量的長距離推理數據,有效提升了模型在多模態場景下的上下文理解深度與推理穩定性。

SFT數據

作者構造了高質量SFT數據集。從社區和內部業務廣泛收集問題及圖片,經過標注分類和指令去重后,圍繞能力維度重建了多樣化的新指令集。然后用多個強模型生成候選答案,結合規則過濾、模型打分、多數投票、人工校驗等方法,篩選高質量數據。

數據集在語言與模態方面保持良好平衡,確保滿足任務多樣性、答案質量、場景平衡。其中,長推理方面構建了包含300K條樣本、覆蓋STEM領域的高質量SFT數據集。

RL數據

作者構建了多種任務類型的強化學習數據集,覆蓋數學、代碼、STEM、指令跟隨以及端側業務等。數據來源于開源數據集以及業務場景,經過去重、質量過濾,總計145K條。

Data Pipeline

作者構建了一套覆蓋數據處理全生命周期的自動化 data pipeline,涵蓋數據采集、合成、格式轉換、質量過濾、去重、分類、篩選、配比、樣本構建等關鍵模塊,支持多源異構數據統一接入,具備高度模塊化與自動化能力,顯著提升了預處理效率與訓練數據質量。



高性能訓練平臺與框架

為支撐模型的高效訓練,作者構建了高性能訓練平臺和訓練框架。

訓練集群

作者自建了大規模高性能訓練集群,在千卡級訓練場景實現了超過95%的近線性加速比。依托自研的軒轅分布式存儲并通過多級緩存優化IO瓶頸。同時建設了集群穩定性保障體系,訓練有效時長超過 99%。

多樣本拼接平衡計算負載、提高GPU利用率:



長上下文訓練:



vivoLM訓練框架

作者基于Megatron-LM,自研了vivoLM訓練框架,支持文本和多模態大模型訓練,圍繞以下四大維度進行了優化:

1)訓練性能上,優化圖文對拼接策略以均衡每張卡計算的token數量,提升算力利用率。 通過Context Parallelism + CP組內ViT數據并行支持32K長文訓練,訓練效率是社區方案的1.66倍。全局Batch Size擴至16K,千卡集群加速比達96.8%。

2)架構擴展上,模塊化解耦ViT、Adapter與LLM,組件及數據處理策略可即插即用。兼容 Megatron-LM、DeepSpeed 等主流訓練框架。

3)穩定性上,完善框架異常處理機制并與訓練平臺聯動,部分故障場景任務可自動恢復。萬億級token數據、千卡級預訓練任務100+小時零中斷。

4)可觀察性上,實現了訓練過程的細粒度監控,包括參數、梯度的L2范數、AdamW優化器內部狀態等。同時支持了在線評測,實時跟蹤模型效果。

RL訓練框架

作者基于 veRL進行了定制開發,適配藍心大模型訓練并做了性能優化。

在性能上借鑒 verl-pipeline方案實現了One-Step Asyn RL,并將Ray通信切換為NCCL通信,降低參數更新的通信開銷;重寫vLLM異步ChatScheduler,動態調度消除 bubble time以最大化推理吞吐。整體訓練性能提升了60%。

為了保障訓練穩定性,針對RM服務作者自動化部署多實例,并將實例注冊到名字服務(VNS),支持訓練框架按標識自動發現并調用服務。同時服務可基于QPS 動態彈性伸縮,避免流量變大后請求延遲變高影響RL訓練性能。

技術報告: https://arxiv.org/abs/2507.05934

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最新一批股價有50%上漲預期的名單來了!

最新一批股價有50%上漲預期的名單來了!

證券市場周刊市場號
2025-07-20 13:01:38
47歲黃奕與Rain同框美翻,網友:韓劇女主既視感,求合作拍戲!

47歲黃奕與Rain同框美翻,網友:韓劇女主既視感,求合作拍戲!

粵語經典歌單
2025-07-20 13:52:38
不怕中國槍彈,就怕高志凱線?為何印度急于和中國劃定永久邊界?

不怕中國槍彈,就怕高志凱線?為何印度急于和中國劃定永久邊界?

靜夜史君
2025-07-18 16:20:03
臺當局警告抗戰老兵,若參加93閱兵就停俸,張自忠孫子憤怒回應

臺當局警告抗戰老兵,若參加93閱兵就停俸,張自忠孫子憤怒回應

流年拾光
2025-07-01 04:34:22
炸裂!被按摩師脫內褲摸隱私部位30分鐘,女子回家之后才報警

炸裂!被按摩師脫內褲摸隱私部位30分鐘,女子回家之后才報警

蝴蝶花雨話教育
2025-05-07 04:40:03
賴清德還沒到紐約,解放軍先發制人,38架軍機起飛,大陸措辭變了

賴清德還沒到紐約,解放軍先發制人,38架軍機起飛,大陸措辭變了

溫辭韞
2025-07-19 13:40:43
7月20日,河北省養老金補發到賬了?養老金2491元,上漲55.95元?

7月20日,河北省養老金補發到賬了?養老金2491元,上漲55.95元?

小舟談歷史
2025-07-20 10:29:18
重慶多地出現大到暴雨,今日下午本輪強降水基本結束,重慶未來三天氣溫明顯下降

重慶多地出現大到暴雨,今日下午本輪強降水基本結束,重慶未來三天氣溫明顯下降

魯中晨報
2025-07-20 16:48:11
廣州60歲男子冠脈造影手術順利,5小時死亡,醫生:犯了致命錯誤

廣州60歲男子冠脈造影手術順利,5小時死亡,醫生:犯了致命錯誤

今日養生之道
2025-07-20 15:42:58
周野芒現狀:69歲仍演戲,和奚美娟離婚后,與二婚妻子生活低調

周野芒現狀:69歲仍演戲,和奚美娟離婚后,與二婚妻子生活低調

老吳教育課堂
2025-07-19 14:07:18
達旺舉旗、藏文回響!中國8年靜悄悄的勝仗,印度再無還手之力

達旺舉旗、藏文回響!中國8年靜悄悄的勝仗,印度再無還手之力

軍行美
2025-07-17 17:32:55
韓媒炮轟中國人裝韓國人在泰國打架,隨即被泰媒打臉,韓媒急刪文

韓媒炮轟中國人裝韓國人在泰國打架,隨即被泰媒打臉,韓媒急刪文

芊手若
2025-07-20 19:09:37
杰倫·布朗:我從未見過科比,這是我人生中最大的遺憾之一

杰倫·布朗:我從未見過科比,這是我人生中最大的遺憾之一

雷速體育
2025-07-20 07:04:26
深圳K11開業僅兩月竟傳“打包甩賣”?千億債務壓垮港資巨頭

深圳K11開業僅兩月竟傳“打包甩賣”?千億債務壓垮港資巨頭

娛樂八卦木木子
2025-07-20 03:10:17
哇塞??四大平臺推出“王炸劇”進入了白熱化,最后會鹿死誰手?

哇塞??四大平臺推出“王炸劇”進入了白熱化,最后會鹿死誰手?

科學發掘
2025-07-18 03:49:00
住女兒家一個月,女婿住賓館,女兒晚飯在食堂吃,母親:早該醒悟

住女兒家一個月,女婿住賓館,女兒晚飯在食堂吃,母親:早該醒悟

拾代談生活
2025-07-20 18:35:30
中方邀請特朗普和普京,9月3日在北京見上一面?俄方的答復很直接

中方邀請特朗普和普京,9月3日在北京見上一面?俄方的答復很直接

頭條爆料007
2025-07-19 18:39:32
小伙打架后道歉被對方剪刀扎胸口捅死,現場堪比唐山打人案看怕我了…

小伙打架后道歉被對方剪刀扎胸口捅死,現場堪比唐山打人案看怕我了…

不二表姐
2025-06-25 00:09:54
41歲朱珠生日路透,劉亦菲LV櫻桃包搶鏡,老公貼身牽娃反差萌 ?

41歲朱珠生日路透,劉亦菲LV櫻桃包搶鏡,老公貼身牽娃反差萌 ?

娛樂領航家
2025-07-20 19:20:03
這次被央媒"點名"的郭德綱,暴露真實處境,于謙的話終于有人信了

這次被央媒"點名"的郭德綱,暴露真實處境,于謙的話終于有人信了

安山客
2025-07-20 14:50:45
2025-07-20 20:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

甘肅通報:天水第二人民醫院檢驗科違規修改血鉛數據

頭條要聞

甘肅通報:天水第二人民醫院檢驗科違規修改血鉛數據

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

游戲
本地
藝術
旅游
公開課

電競世界杯:T1零封G2,斬獲第三!但T1的榮耀,不需要這些來證明

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永福县| 合江县| 南开区| 武城县| 高唐县| 政和县| 潜山县| 平昌县| 交口县| 汉沽区| 尖扎县| 岳池县| 彩票| 宜丰县| 麻阳| 商水县| 龙州县| 潼南县| 克山县| 德兴市| 长子县| 晋中市| 兴隆县| 永胜县| 翁牛特旗| 根河市| 三穗县| 虹口区| 股票| 长子县| 广元市| 星子县| 科尔| 广东省| 沙坪坝区| 堆龙德庆县| 涟水县| 富阳市| 永州市| 揭西县| 磐石市|