網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

vivo發(fā)端側(cè)多模態(tài)模型，只有3B可理解GUI界面，20項(xiàng)評(píng)測(cè)表現(xiàn)亮眼

2025-07-10 13:13:38　來(lái)源: 量子位

北京舉報(bào)

分享至

vivo AI Lab 投稿
量子位 | 公眾號(hào) QbitAI

vivo AI Lab發(fā)布AI多模態(tài)新模型了，專門(mén)面向端側(cè)設(shè)計(jì)，緊湊高效～

能夠直接理解GUI頁(yè)面的那種：

模型BlueLM-2.5-3B，融合文本和圖文的理解和推理能力，支持長(zhǎng)短思考模式自由切換，并引入思考預(yù)算控制機(jī)制。

與同尺寸模型相比，BlueLM-2.5-3B在多個(gè)文本與多模態(tài)評(píng)測(cè)任務(wù)中表現(xiàn)出色。

BlueLM-2.5-3B支持思考預(yù)算控制（thinking token budget），有效平衡思考深度和推理成本：

兼具多模態(tài)推理和文本的推理能力，思考范圍擴(kuò)展：

另外值得一提的是，作者對(duì)模型結(jié)構(gòu)與訓(xùn)練策略進(jìn)行了深度優(yōu)化，顯著降低了訓(xùn)練和推理成本。通過(guò)優(yōu)質(zhì)數(shù)據(jù)篩選、自動(dòng)配比策略以及大規(guī)模推理合成數(shù)據(jù)，模型的數(shù)據(jù)利用效率大幅提升。

同時(shí)，模型訓(xùn)練全過(guò)程由自建的高性能訓(xùn)練平臺(tái)與框架高效支撐，確保了訓(xùn)練效率和訓(xùn)練穩(wěn)定性。

以下是更多細(xì)節(jié)。

在20余項(xiàng)評(píng)測(cè)任務(wù)中表現(xiàn)出色

BlueLM-2.5-3B在20余項(xiàng)評(píng)測(cè)任務(wù)中展現(xiàn)出如下核心優(yōu)勢(shì)：

1、文本任務(wù)表現(xiàn)出色，緩解能力遺忘難題

BlueLM-2.5-3B在thinking、non-thinking不同模式下，在文本任務(wù)上與同規(guī)模文本模型Qwen3-4B效果相近，領(lǐng)先于同規(guī)模以及更大規(guī)模的多模態(tài)模型

這主要得益于數(shù)據(jù)策略以及訓(xùn)練策略較好地緩解了困擾多模態(tài)模型訓(xùn)練的文本能力遺忘難題。

thinking模式下，與4B以下同規(guī)模具有思考模式的文本模型Qwen3-4B-thinking相比，BlueLM-2.5-3B除代碼類任務(wù)外其他大部分文本任務(wù)效果相近；與同規(guī)模多模態(tài)模型如Qwen2.5-VL-3B相比指標(biāo)全面領(lǐng)先；與更大規(guī)模的具有思考模式的多模態(tài)模型Kimi-VL-A3B-16B-thinking相比，文本效果全面領(lǐng)先。

thinking模式下推理類任務(wù)（如Math-500、GSM8K、AIME）效果也顯著優(yōu)于更大規(guī)模的沒(méi)有thinking模式的模型如 Qwen2.5-VL-72B。

non-thinking模式下，與同規(guī)模文本模型Qwen3-4B-non-thinking相比，文本效果相當(dāng)。

明顯優(yōu)于同規(guī)模多模態(tài)模型Qwen2.5-VL-3B、Gemma3-4B，其中推理類任務(wù)如Math-500、BBH、AMIE24、AIME25優(yōu)勢(shì)更為明顯。

與更大規(guī)模多模態(tài)模型Kimi-VL-A3B-16B-non-thinking 相比全部指標(biāo)均更優(yōu)，尤其是推理類任務(wù)的優(yōu)勢(shì)更明顯。

2、多模態(tài)理解能力領(lǐng)先同規(guī)模模型

BlueLM-2.5-3B在thinking、non-thinking不同模式下，在多模態(tài)任務(wù)上領(lǐng)先于同規(guī)模多模態(tài)模型，與更大規(guī)模的多模態(tài)模型效果相近

thinking模式下，與更大規(guī)模模型Kimi-VL-A3B-16B-thinking相比，大多數(shù)評(píng)測(cè)任務(wù)的差距在5%以內(nèi)；在推理相關(guān)任務(wù)如MathVista和MathVision的效果優(yōu)于沒(méi)有thinking模式的Qwen2.5-VL-72B。

non-thinking模式下，與同規(guī)模模型Qwen2.5-VL-3B相比，指標(biāo)全面領(lǐng)先，其中推理類任務(wù)Mathvista、Mathvision優(yōu)勢(shì)明顯；與Gemma-3-4B相比效果更優(yōu)；與更大規(guī)模模型Kimi-VL-A3B-16B-non-thinking相比，超過(guò)半數(shù)指標(biāo)領(lǐng)先，其余指標(biāo)差距在5%以內(nèi)；與行業(yè)領(lǐng)先模型相比，一半左右評(píng)測(cè)集差距在5%以內(nèi)。

3、同時(shí)支持文本和多模態(tài)的長(zhǎng)短思考以及思考預(yù)算控制

上述評(píng)測(cè)結(jié)果顯示，BlueLM-2.5-3B 同時(shí)具備了文本與多模態(tài)的thinking 模式。長(zhǎng)思考模式顯著提升復(fù)雜推理任務(wù)上的模型效果。

例如，在AIME25 任務(wù)中thinking模式較之non-thinking 模式提高達(dá)40分，在MathVision 任務(wù)中提高達(dá)19.2分。

4、GUI理解能力領(lǐng)先同規(guī)模模型

與同規(guī)模模型相比，BlueLM-2.5-3B在GUI grounding指標(biāo)上全面領(lǐng)先，例如ScreenSpot、ScreenSpot V2、ScreenSpot Pro的得分均超過(guò)了Qwen2.5-VL-3B和UI-TARS-2B。

與更大規(guī)模模型如Qwen2.5-VL-7B、UI-TARS 7B相比存在一定差距。得益于采集標(biāo)注了大量中文app截屏數(shù)據(jù)，在中文評(píng)測(cè)集ScreenSpot vivo得分高于其他模型。

精巧模型結(jié)構(gòu)與高效訓(xùn)練

為支撐模型上述效果，BlueLM-2.5-3B設(shè)計(jì)了精巧緊湊的模型結(jié)構(gòu)和高效的訓(xùn)練策略。

模型結(jié)構(gòu)

BlueLM-2.5-3B面向端側(cè)部署，參數(shù)量?jī)H2.9B，比同規(guī)模的模型如Qwen2.5-VL-3B小22%以上，具有訓(xùn)練和推理的成本優(yōu)勢(shì)。

BlueLM-2.5-3B模型由ViT、Adapter、LLM組成。如圖所示：

ViT采用400M參數(shù)量的SigLIP2（so400m-patch14-384）。采用AnyRes方案支持動(dòng)態(tài)分辨率，最大圖像輸入1512×1512。切完子圖后，固定長(zhǎng)度token便于端側(cè)部署，且子圖并行推理，推理耗隨輸入token數(shù)量線性增長(zhǎng)。此外，小尺寸ViT也有助于進(jìn)一步降低功耗。

圖像token經(jīng)Adapter投影后接入LLM Decoder。

下圖展示了BlueLM-2.5-3B優(yōu)秀的ViT推理性能：

預(yù)訓(xùn)練策略

文本和多模態(tài)的預(yù)訓(xùn)練共分為4個(gè)階段：

1、文本數(shù)據(jù)預(yù)訓(xùn)練策略（Pure-Text Pre-training Stage）

LLM Decoder參數(shù)采用文本模型初始化。文本模型采用了“大模型裁剪+蒸餾”的三階段訓(xùn)練策略，包括普通預(yù)訓(xùn)練（General Pre-training）、快速衰減（Fast-Decay, FD）和微調(diào)（SFT）。

首先訓(xùn)練7B教師模型并裁剪得到3B文本模型，再繼續(xù)用3T tokens蒸餾預(yù)訓(xùn)練以及300B tokens FD蒸餾訓(xùn)練。

相比從零訓(xùn)練的同尺寸模型，性能提升超 4%。

2、文本和圖文數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練（Joint Pre-training Stage）

先凍結(jié)ViT和LLM參數(shù)，利用2.5M條圖文對(duì)數(shù)據(jù)訓(xùn)練Adapter；再解凍全參數(shù)進(jìn)行全量訓(xùn)練。

通過(guò)設(shè)置64M的大batch size、統(tǒng)一12T tokens全局學(xué)習(xí)率衰減調(diào)度及對(duì)ViT的分層學(xué)習(xí)率控制，有效提升了訓(xùn)練效率與穩(wěn)定性。

這一階段，作者實(shí)現(xiàn)了訓(xùn)練流程簡(jiǎn)化，省略了一般方案中ViT+Adapter的單獨(dú)訓(xùn)練階段，直接全量訓(xùn)練。

3、推理增強(qiáng)數(shù)據(jù)的繼續(xù)訓(xùn)練（Reasoning-Enhanced Stage）

作者在文本數(shù)據(jù)中提升STEM、編程、邏輯推理以及高質(zhì)量合成數(shù)據(jù)的占比。

合成數(shù)據(jù)覆蓋了短COT和長(zhǎng)COT數(shù)據(jù)。在多模態(tài)數(shù)據(jù)中引入大量高質(zhì)量的推理相關(guān)的圖文問(wèn)答對(duì)。這一階段共使用2.5T tokens數(shù)據(jù)。

將文本任務(wù)的推理增強(qiáng)訓(xùn)練后置到多模態(tài)階段，有效避免了文本推理能力遺忘，提升了訓(xùn)練效率。

4、快速衰減與長(zhǎng)文聯(lián)合訓(xùn)練（JointFast-decay and Long-context Activation Stage）

快速衰減階段同時(shí)進(jìn)行長(zhǎng)文訓(xùn)練。位置編碼從 Rope調(diào)整為 Yarn。

這一階段使用1.3T tokens，序列長(zhǎng)度從4K擴(kuò)展到32K。通過(guò)逐步將原生長(zhǎng)文和高質(zhì)量長(zhǎng)推理數(shù)據(jù)占比增至80%以上、減小Global Batch Size，有效提升模型的長(zhǎng)思考能力。

后訓(xùn)練策略

BlueLM-2.5-3B的后訓(xùn)練分為2個(gè)階段：

1、SFT訓(xùn)練

SFT階段將文本與多模態(tài)任務(wù)聯(lián)合微調(diào)，引入特殊token [|BlueThink|] 控制思考模式是否觸發(fā)。這一階段序列長(zhǎng)度保持為32K。根據(jù)學(xué)習(xí)難度差異，作者將常規(guī)COT數(shù)據(jù)訓(xùn)練3 epoch，長(zhǎng)COT數(shù)據(jù)訓(xùn)練9 epoch。

2、RL訓(xùn)練

RL階段混合使用了基于人類偏好反饋的強(qiáng)化學(xué)習(xí)（RLHF）方法和基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）方法，使用GRPO算法進(jìn)行優(yōu)化。

開(kāi)放問(wèn)答類任務(wù)，使用RLHF方法。對(duì)文本寫(xiě)作、總結(jié)等任務(wù)，使用生成式獎(jiǎng)勵(lì)模型從相關(guān)性、準(zhǔn)確性、有用性、冗余性維度進(jìn)行打分優(yōu)化；而模型安全能力的提升，則使用判別式獎(jiǎng)勵(lì)模型進(jìn)行優(yōu)化。

對(duì)有明確答案或評(píng)測(cè)標(biāo)準(zhǔn)的任務(wù)，如數(shù)學(xué)、代碼等推理相關(guān)任務(wù)，使用RLVR方法。作者使用規(guī)則結(jié)合verify模型進(jìn)行正確性打分，最終獎(jiǎng)勵(lì)分?jǐn)?shù)綜合考慮答案正確性、格式正確性和重復(fù)情況和長(zhǎng)度，其中為了優(yōu)化模型“過(guò)度思考”的問(wèn)題，作者引入“Group Overlong”的長(zhǎng)度懲罰機(jī)制。

高質(zhì)量訓(xùn)練數(shù)據(jù)

模型性能背后離不開(kāi)高質(zhì)量訓(xùn)練數(shù)據(jù)的支持。BlueLM-2.5-3B的訓(xùn)練數(shù)據(jù)有如下特點(diǎn)：

1）相較于同規(guī)模模型如Qwen2.5-VL-3B，預(yù)訓(xùn)練數(shù)據(jù)總量減少了約23%，這主要得益于對(duì)文本模型訓(xùn)練數(shù)據(jù)的有效壓縮。文本模型訓(xùn)練數(shù)據(jù)僅為Qwen3-4B 的25%、Qwen2.5的48%。

2）BlueLM-2.5-3B的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)顯著多于其他模型，主要因?yàn)槲谋就评砟芰τ?xùn)練后置合并到多模態(tài)訓(xùn)練階段。累計(jì)引入3.3T tokens推理增強(qiáng)數(shù)據(jù)，為小模型具備較強(qiáng)推理能力奠定了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

文本預(yù)訓(xùn)練數(shù)據(jù)

文本模型預(yù)訓(xùn)練階段共計(jì)使用9.3T tokens，其中6T tokens用于教師模型訓(xùn)練，3.3T tokens 用于學(xué)生模型的蒸餾訓(xùn)練。

多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)

多模態(tài)模型的預(yù)訓(xùn)練數(shù)據(jù)為4T tokens，涵蓋Image Caption、OCR、GUI、純文本以及其他類型數(shù)據(jù)。其中純文本1.6T，圖文對(duì)2.4T。通過(guò)將文本數(shù)據(jù)占比提升至40%，有效緩解了多模態(tài)預(yù)訓(xùn)練階段文本能力遺忘問(wèn)題。

另外，從預(yù)訓(xùn)練階段開(kāi)始就引入GUI等業(yè)務(wù)相關(guān)數(shù)據(jù)，有效提升基模在業(yè)務(wù)場(chǎng)景的能力上限。

推理訓(xùn)練數(shù)據(jù)

作者構(gòu)建兩階段的數(shù)據(jù)合成pipeline生產(chǎn)大規(guī)模推理數(shù)據(jù)，第一階段通過(guò)多種途徑獲取原始問(wèn)題并改寫(xiě)擴(kuò)充規(guī)模。第二階段通過(guò)多次采樣同一問(wèn)題獲得不同的推理路徑，結(jié)合規(guī)則檢查、拒絕采樣以及投票技術(shù)篩選高質(zhì)量答案。

長(zhǎng)文本數(shù)據(jù)

作者引入了由長(zhǎng)文本與圖文混合構(gòu)成的長(zhǎng)上下文訓(xùn)練數(shù)據(jù)。在原生長(zhǎng)文本數(shù)據(jù)的基礎(chǔ)上，引入高質(zhì)量的長(zhǎng)距離推理數(shù)據(jù)，有效提升了模型在多模態(tài)場(chǎng)景下的上下文理解深度與推理穩(wěn)定性。

SFT數(shù)據(jù)

作者構(gòu)造了高質(zhì)量SFT數(shù)據(jù)集。從社區(qū)和內(nèi)部業(yè)務(wù)廣泛收集問(wèn)題及圖片，經(jīng)過(guò)標(biāo)注分類和指令去重后，圍繞能力維度重建了多樣化的新指令集。然后用多個(gè)強(qiáng)模型生成候選答案，結(jié)合規(guī)則過(guò)濾、模型打分、多數(shù)投票、人工校驗(yàn)等方法，篩選高質(zhì)量數(shù)據(jù)。

數(shù)據(jù)集在語(yǔ)言與模態(tài)方面保持良好平衡，確保滿足任務(wù)多樣性、答案質(zhì)量、場(chǎng)景平衡。其中，長(zhǎng)推理方面構(gòu)建了包含300K條樣本、覆蓋STEM領(lǐng)域的高質(zhì)量SFT數(shù)據(jù)集。

RL數(shù)據(jù)

作者構(gòu)建了多種任務(wù)類型的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集，覆蓋數(shù)學(xué)、代碼、STEM、指令跟隨以及端側(cè)業(yè)務(wù)等。數(shù)據(jù)來(lái)源于開(kāi)源數(shù)據(jù)集以及業(yè)務(wù)場(chǎng)景，經(jīng)過(guò)去重、質(zhì)量過(guò)濾，總計(jì)145K條。

Data Pipeline

作者構(gòu)建了一套覆蓋數(shù)據(jù)處理全生命周期的自動(dòng)化 data pipeline，涵蓋數(shù)據(jù)采集、合成、格式轉(zhuǎn)換、質(zhì)量過(guò)濾、去重、分類、篩選、配比、樣本構(gòu)建等關(guān)鍵模塊，支持多源異構(gòu)數(shù)據(jù)統(tǒng)一接入，具備高度模塊化與自動(dòng)化能力，顯著提升了預(yù)處理效率與訓(xùn)練數(shù)據(jù)質(zhì)量。

高性能訓(xùn)練平臺(tái)與框架

為支撐模型的高效訓(xùn)練，作者構(gòu)建了高性能訓(xùn)練平臺(tái)和訓(xùn)練框架。

訓(xùn)練集群

作者自建了大規(guī)模高性能訓(xùn)練集群，在千卡級(jí)訓(xùn)練場(chǎng)景實(shí)現(xiàn)了超過(guò)95%的近線性加速比。依托自研的軒轅分布式存儲(chǔ)并通過(guò)多級(jí)緩存優(yōu)化IO瓶頸。同時(shí)建設(shè)了集群穩(wěn)定性保障體系，訓(xùn)練有效時(shí)長(zhǎng)超過(guò) 99%。

多樣本拼接平衡計(jì)算負(fù)載、提高GPU利用率：

長(zhǎng)上下文訓(xùn)練：

vivoLM訓(xùn)練框架

作者基于Megatron-LM，自研了vivoLM訓(xùn)練框架，支持文本和多模態(tài)大模型訓(xùn)練，圍繞以下四大維度進(jìn)行了優(yōu)化：

1）訓(xùn)練性能上，優(yōu)化圖文對(duì)拼接策略以均衡每張卡計(jì)算的token數(shù)量，提升算力利用率。通過(guò)Context Parallelism + CP組內(nèi)ViT數(shù)據(jù)并行支持32K長(zhǎng)文訓(xùn)練，訓(xùn)練效率是社區(qū)方案的1.66倍。全局Batch Size擴(kuò)至16K，千卡集群加速比達(dá)96.8%。

2）架構(gòu)擴(kuò)展上，模塊化解耦ViT、Adapter與LLM，組件及數(shù)據(jù)處理策略可即插即用。兼容 Megatron-LM、DeepSpeed 等主流訓(xùn)練框架。

3）穩(wěn)定性上，完善框架異常處理機(jī)制并與訓(xùn)練平臺(tái)聯(lián)動(dòng)，部分故障場(chǎng)景任務(wù)可自動(dòng)恢復(fù)。萬(wàn)億級(jí)token數(shù)據(jù)、千卡級(jí)預(yù)訓(xùn)練任務(wù)100+小時(shí)零中斷。

4）可觀察性上，實(shí)現(xiàn)了訓(xùn)練過(guò)程的細(xì)粒度監(jiān)控，包括參數(shù)、梯度的L2范數(shù)、AdamW優(yōu)化器內(nèi)部狀態(tài)等。同時(shí)支持了在線評(píng)測(cè)，實(shí)時(shí)跟蹤模型效果。

RL訓(xùn)練框架

作者基于 veRL進(jìn)行了定制開(kāi)發(fā)，適配藍(lán)心大模型訓(xùn)練并做了性能優(yōu)化。

在性能上借鑒 verl-pipeline方案實(shí)現(xiàn)了One-Step Asyn RL，并將Ray通信切換為NCCL通信，降低參數(shù)更新的通信開(kāi)銷；重寫(xiě)vLLM異步ChatScheduler，動(dòng)態(tài)調(diào)度消除 bubble time以最大化推理吞吐。整體訓(xùn)練性能提升了60%。

為了保障訓(xùn)練穩(wěn)定性，針對(duì)RM服務(wù)作者自動(dòng)化部署多實(shí)例，并將實(shí)例注冊(cè)到名字服務(wù)（VNS），支持訓(xùn)練框架按標(biāo)識(shí)自動(dòng)發(fā)現(xiàn)并調(diào)用服務(wù)。同時(shí)服務(wù)可基于QPS 動(dòng)態(tài)彈性伸縮，避免流量變大后請(qǐng)求延遲變高影響RL訓(xùn)練性能。

技術(shù)報(bào)告： https://arxiv.org/abs/2507.05934

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.