vivo AI Lab 投稿
量子位 | 公眾號(hào) QbitAI
vivo AI Lab發(fā)布AI多模態(tài)新模型了,專門(mén)面向端側(cè)設(shè)計(jì),緊湊高效~
能夠直接理解GUI頁(yè)面的那種:
模型BlueLM-2.5-3B,融合文本和圖文的理解和推理能力,支持長(zhǎng)短思考模式自由切換,并引入思考預(yù)算控制機(jī)制。
與同尺寸模型相比,BlueLM-2.5-3B在多個(gè)文本與多模態(tài)評(píng)測(cè)任務(wù)中表現(xiàn)出色。
BlueLM-2.5-3B支持思考預(yù)算控制(thinking token budget),有效平衡思考深度和推理成本:
兼具多模態(tài)推理和文本的推理能力,思考范圍擴(kuò)展:
另外值得一提的是,作者對(duì)模型結(jié)構(gòu)與訓(xùn)練策略進(jìn)行了深度優(yōu)化,顯著降低了訓(xùn)練和推理成本。通過(guò)優(yōu)質(zhì)數(shù)據(jù)篩選、自動(dòng)配比策略以及大規(guī)模推理合成數(shù)據(jù),模型的數(shù)據(jù)利用效率大幅提升。
同時(shí),模型訓(xùn)練全過(guò)程由自建的高性能訓(xùn)練平臺(tái)與框架高效支撐,確保了訓(xùn)練效率和訓(xùn)練穩(wěn)定性。
以下是更多細(xì)節(jié)。
在20余項(xiàng)評(píng)測(cè)任務(wù)中表現(xiàn)出色
BlueLM-2.5-3B在20余項(xiàng)評(píng)測(cè)任務(wù)中展現(xiàn)出如下核心優(yōu)勢(shì):
1、文本任務(wù)表現(xiàn)出色,緩解能力遺忘難題
BlueLM-2.5-3B在thinking、non-thinking不同模式下,在文本任務(wù)上與同規(guī)模文本模型Qwen3-4B效果相近,領(lǐng)先于同規(guī)模以及更大規(guī)模的多模態(tài)模型
這主要得益于數(shù)據(jù)策略以及訓(xùn)練策略較好地緩解了困擾多模態(tài)模型訓(xùn)練的文本能力遺忘難題。
thinking模式下,與4B以下同規(guī)模具有思考模式的文本模型Qwen3-4B-thinking相比,BlueLM-2.5-3B除代碼類任務(wù)外其他大部分文本任務(wù)效果相近;與同規(guī)模多模態(tài)模型如Qwen2.5-VL-3B相比指標(biāo)全面領(lǐng)先;與更大規(guī)模的具有思考模式的多模態(tài)模型Kimi-VL-A3B-16B-thinking相比,文本效果全面領(lǐng)先。
thinking模式下推理類任務(wù)(如Math-500、GSM8K、AIME)效果也顯著優(yōu)于更大規(guī)模的沒(méi)有thinking模式的模型如 Qwen2.5-VL-72B。
non-thinking模式下,與同規(guī)模文本模型Qwen3-4B-non-thinking相比,文本效果相當(dāng)。
明顯優(yōu)于同規(guī)模多模態(tài)模型Qwen2.5-VL-3B、Gemma3-4B,其中推理類任務(wù)如Math-500、BBH、AMIE24、AIME25優(yōu)勢(shì)更為明顯。
與更大規(guī)模多模態(tài)模型Kimi-VL-A3B-16B-non-thinking 相比全部指標(biāo)均更優(yōu),尤其是推理類任務(wù)的優(yōu)勢(shì)更明顯。
2、多模態(tài)理解能力領(lǐng)先同規(guī)模模型
BlueLM-2.5-3B在thinking、non-thinking不同模式下,在多模態(tài)任務(wù)上領(lǐng)先于同規(guī)模多模態(tài)模型,與更大規(guī)模的多模態(tài)模型效果相近
thinking模式下,與更大規(guī)模模型Kimi-VL-A3B-16B-thinking相比,大多數(shù)評(píng)測(cè)任務(wù)的差距在5%以內(nèi);在推理相關(guān)任務(wù)如MathVista和MathVision的效果優(yōu)于沒(méi)有thinking模式的Qwen2.5-VL-72B。
non-thinking模式下,與同規(guī)模模型Qwen2.5-VL-3B相比,指標(biāo)全面領(lǐng)先,其中推理類任務(wù)Mathvista、Mathvision優(yōu)勢(shì)明顯;與Gemma-3-4B相比效果更優(yōu);與更大規(guī)模模型Kimi-VL-A3B-16B-non-thinking相比,超過(guò)半數(shù)指標(biāo)領(lǐng)先,其余指標(biāo)差距在5%以內(nèi);與行業(yè)領(lǐng)先模型相比,一半左右評(píng)測(cè)集差距在5%以內(nèi)。
3、同時(shí)支持文本和多模態(tài)的長(zhǎng)短思考以及思考預(yù)算控制
上述評(píng)測(cè)結(jié)果顯示,BlueLM-2.5-3B 同時(shí)具備了文本與多模態(tài)的thinking 模式。長(zhǎng)思考模式顯著提升復(fù)雜推理任務(wù)上的模型效果。
例如,在AIME25 任務(wù)中thinking模式較之non-thinking 模式提高達(dá)40分,在MathVision 任務(wù)中提高達(dá)19.2分。
4、GUI理解能力領(lǐng)先同規(guī)模模型
與同規(guī)模模型相比,BlueLM-2.5-3B在GUI grounding指標(biāo)上全面領(lǐng)先,例如ScreenSpot、ScreenSpot V2、ScreenSpot Pro的得分均超過(guò)了Qwen2.5-VL-3B和UI-TARS-2B。
與更大規(guī)模模型如Qwen2.5-VL-7B、UI-TARS 7B相比存在一定差距。得益于采集標(biāo)注了大量中文app截屏數(shù)據(jù),在中文評(píng)測(cè)集ScreenSpot vivo得分高于其他模型。
精巧模型結(jié)構(gòu)與高效訓(xùn)練
為支撐模型上述效果,BlueLM-2.5-3B設(shè)計(jì)了精巧緊湊的模型結(jié)構(gòu)和高效的訓(xùn)練策略。
模型結(jié)構(gòu)
BlueLM-2.5-3B面向端側(cè)部署,參數(shù)量?jī)H2.9B,比同規(guī)模的模型如Qwen2.5-VL-3B小22%以上,具有訓(xùn)練和推理的成本優(yōu)勢(shì)。
BlueLM-2.5-3B模型由ViT、Adapter、LLM組成。如圖所示:
ViT采用400M參數(shù)量的SigLIP2(so400m-patch14-384)。 采用AnyRes方案支持動(dòng)態(tài)分辨率,最大圖像輸入1512×1512。切完子圖后,固定長(zhǎng)度token便于端側(cè)部署,且子圖并行推理,推理耗隨輸入token數(shù)量線性增長(zhǎng)。此外,小尺寸ViT也有助于進(jìn)一步降低功耗。
圖像token經(jīng)Adapter投影后接入LLM Decoder。
下圖展示了BlueLM-2.5-3B優(yōu)秀的ViT推理性能:
預(yù)訓(xùn)練策略
文本和多模態(tài)的預(yù)訓(xùn)練共分為4個(gè)階段:
1、文本數(shù)據(jù)預(yù)訓(xùn)練策略(Pure-Text Pre-training Stage)
LLM Decoder參數(shù)采用文本模型初始化。文本模型采用了“大模型裁剪+蒸餾”的三階段訓(xùn)練策略,包括普通預(yù)訓(xùn)練(General Pre-training)、快速衰減(Fast-Decay, FD)和微調(diào)(SFT)。
首先訓(xùn)練7B教師模型并裁剪得到3B文本模型,再繼續(xù)用3T tokens蒸餾預(yù)訓(xùn)練以及300B tokens FD蒸餾訓(xùn)練。
相比從零訓(xùn)練的同尺寸模型,性能提升超 4%。
2、文本和圖文數(shù)據(jù)聯(lián)合預(yù)訓(xùn)練(Joint Pre-training Stage)
先凍結(jié)ViT和LLM參數(shù),利用2.5M條圖文對(duì)數(shù)據(jù)訓(xùn)練Adapter;再解凍全參數(shù)進(jìn)行全量訓(xùn)練。
通過(guò)設(shè)置64M的大batch size、統(tǒng)一12T tokens全局學(xué)習(xí)率衰減調(diào)度及對(duì)ViT的分層學(xué)習(xí)率控制,有效提升了訓(xùn)練效率與穩(wěn)定性。
這一階段,作者實(shí)現(xiàn)了訓(xùn)練流程簡(jiǎn)化,省略了一般方案中ViT+Adapter的單獨(dú)訓(xùn)練階段,直接全量訓(xùn)練。
3、推理增強(qiáng)數(shù)據(jù)的繼續(xù)訓(xùn)練(Reasoning-Enhanced Stage)
作者在文本數(shù)據(jù)中提升STEM、編程、邏輯推理以及高質(zhì)量合成數(shù)據(jù)的占比。
合成數(shù)據(jù)覆蓋了短COT和長(zhǎng)COT數(shù)據(jù)。在多模態(tài)數(shù)據(jù)中引入大量高質(zhì)量的推理相關(guān)的圖文問(wèn)答對(duì)。這一階段共使用2.5T tokens數(shù)據(jù)。
將文本任務(wù)的推理增強(qiáng)訓(xùn)練后置到多模態(tài)階段,有效避免了文本推理能力遺忘,提升了訓(xùn)練效率。
4、快速衰減與長(zhǎng)文聯(lián)合訓(xùn)練(JointFast-decay and Long-context Activation Stage)
快速衰減階段同時(shí)進(jìn)行長(zhǎng)文訓(xùn)練。位置編碼從 Rope調(diào)整為 Yarn。
這一階段使用1.3T tokens,序列長(zhǎng)度從4K擴(kuò)展到32K。通過(guò)逐步將原生長(zhǎng)文和高質(zhì)量長(zhǎng)推理數(shù)據(jù)占比增至80%以上、減小Global Batch Size,有效提升模型的長(zhǎng)思考能力。
后訓(xùn)練策略
BlueLM-2.5-3B的后訓(xùn)練分為2個(gè)階段:
1、SFT訓(xùn)練
SFT階段將文本與多模態(tài)任務(wù)聯(lián)合微調(diào),引入特殊token [|BlueThink|] 控制思考模式是否觸發(fā)。這一階段序列長(zhǎng)度保持為32K。根據(jù)學(xué)習(xí)難度差異,作者將常規(guī)COT數(shù)據(jù)訓(xùn)練3 epoch,長(zhǎng)COT數(shù)據(jù)訓(xùn)練9 epoch。
2、RL訓(xùn)練
RL階段混合使用了基于人類偏好反饋的強(qiáng)化學(xué)習(xí)(RLHF)方法和基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)方法,使用GRPO算法進(jìn)行優(yōu)化。
開(kāi)放問(wèn)答類任務(wù),使用RLHF方法。對(duì)文本寫(xiě)作、總結(jié)等任務(wù),使用生成式獎(jiǎng)勵(lì)模型從相關(guān)性、準(zhǔn)確性、有用性、冗余性維度進(jìn)行打分優(yōu)化;而模型安全能力的提升,則使用判別式獎(jiǎng)勵(lì)模型進(jìn)行優(yōu)化。
對(duì)有明確答案或評(píng)測(cè)標(biāo)準(zhǔn)的任務(wù),如數(shù)學(xué)、代碼等推理相關(guān)任務(wù),使用RLVR方法。作者使用規(guī)則結(jié)合verify模型進(jìn)行正確性打分,最終獎(jiǎng)勵(lì)分?jǐn)?shù)綜合考慮答案正確性、格式正確性和重復(fù)情況和長(zhǎng)度,其中為了優(yōu)化模型“過(guò)度思考”的問(wèn)題,作者引入“Group Overlong”的長(zhǎng)度懲罰機(jī)制。
高質(zhì)量訓(xùn)練數(shù)據(jù)
模型性能背后離不開(kāi)高質(zhì)量訓(xùn)練數(shù)據(jù)的支持。BlueLM-2.5-3B的訓(xùn)練數(shù)據(jù)有如下特點(diǎn):
1)相較于同規(guī)模模型如Qwen2.5-VL-3B,預(yù)訓(xùn)練數(shù)據(jù)總量減少了約23%,這主要得益于對(duì)文本模型訓(xùn)練數(shù)據(jù)的有效壓縮。文本模型訓(xùn)練數(shù)據(jù)僅為Qwen3-4B 的25%、Qwen2.5的48%。
2)BlueLM-2.5-3B的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)顯著多于其他模型,主要因?yàn)槲谋就评砟芰τ?xùn)練后置合并到多模態(tài)訓(xùn)練階段。累計(jì)引入3.3T tokens推理增強(qiáng)數(shù)據(jù),為小模型具備較強(qiáng)推理能力奠定了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
文本預(yù)訓(xùn)練數(shù)據(jù)
文本模型預(yù)訓(xùn)練階段共計(jì)使用9.3T tokens,其中6T tokens用于教師模型訓(xùn)練,3.3T tokens 用于學(xué)生模型的蒸餾訓(xùn)練。
多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)
多模態(tài)模型的預(yù)訓(xùn)練數(shù)據(jù)為4T tokens,涵蓋Image Caption、OCR、GUI、純文本以及其他類型數(shù)據(jù)。其中純文本1.6T,圖文對(duì)2.4T。通過(guò)將文本數(shù)據(jù)占比提升至40%,有效緩解了多模態(tài)預(yù)訓(xùn)練階段文本能力遺忘問(wèn)題。
另外,從預(yù)訓(xùn)練階段開(kāi)始就引入GUI等業(yè)務(wù)相關(guān)數(shù)據(jù),有效提升基模在業(yè)務(wù)場(chǎng)景的能力上限。
推理訓(xùn)練數(shù)據(jù)
作者構(gòu)建兩階段的數(shù)據(jù)合成pipeline生產(chǎn)大規(guī)模推理數(shù)據(jù),第一階段通過(guò)多種途徑獲取原始問(wèn)題并改寫(xiě)擴(kuò)充規(guī)模。第二階段通過(guò)多次采樣同一問(wèn)題獲得不同的推理路徑,結(jié)合規(guī)則檢查、拒絕采樣以及投票技術(shù)篩選高質(zhì)量答案。
長(zhǎng)文本數(shù)據(jù)
作者引入了由長(zhǎng)文本與圖文混合構(gòu)成的長(zhǎng)上下文訓(xùn)練數(shù)據(jù)。在原生長(zhǎng)文本數(shù)據(jù)的基礎(chǔ)上,引入高質(zhì)量的長(zhǎng)距離推理數(shù)據(jù),有效提升了模型在多模態(tài)場(chǎng)景下的上下文理解深度與推理穩(wěn)定性。
SFT數(shù)據(jù)
作者構(gòu)造了高質(zhì)量SFT數(shù)據(jù)集。從社區(qū)和內(nèi)部業(yè)務(wù)廣泛收集問(wèn)題及圖片,經(jīng)過(guò)標(biāo)注分類和指令去重后,圍繞能力維度重建了多樣化的新指令集。然后用多個(gè)強(qiáng)模型生成候選答案,結(jié)合規(guī)則過(guò)濾、模型打分、多數(shù)投票、人工校驗(yàn)等方法,篩選高質(zhì)量數(shù)據(jù)。
數(shù)據(jù)集在語(yǔ)言與模態(tài)方面保持良好平衡,確保滿足任務(wù)多樣性、答案質(zhì)量、場(chǎng)景平衡。其中,長(zhǎng)推理方面構(gòu)建了包含300K條樣本、覆蓋STEM領(lǐng)域的高質(zhì)量SFT數(shù)據(jù)集。
RL數(shù)據(jù)
作者構(gòu)建了多種任務(wù)類型的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集,覆蓋數(shù)學(xué)、代碼、STEM、指令跟隨以及端側(cè)業(yè)務(wù)等。數(shù)據(jù)來(lái)源于開(kāi)源數(shù)據(jù)集以及業(yè)務(wù)場(chǎng)景,經(jīng)過(guò)去重、質(zhì)量過(guò)濾,總計(jì)145K條。
Data Pipeline
作者構(gòu)建了一套覆蓋數(shù)據(jù)處理全生命周期的自動(dòng)化 data pipeline,涵蓋數(shù)據(jù)采集、合成、格式轉(zhuǎn)換、質(zhì)量過(guò)濾、去重、分類、篩選、配比、樣本構(gòu)建等關(guān)鍵模塊,支持多源異構(gòu)數(shù)據(jù)統(tǒng)一接入,具備高度模塊化與自動(dòng)化能力,顯著提升了預(yù)處理效率與訓(xùn)練數(shù)據(jù)質(zhì)量。
高性能訓(xùn)練平臺(tái)與框架
為支撐模型的高效訓(xùn)練,作者構(gòu)建了高性能訓(xùn)練平臺(tái)和訓(xùn)練框架。
訓(xùn)練集群
作者自建了大規(guī)模高性能訓(xùn)練集群,在千卡級(jí)訓(xùn)練場(chǎng)景實(shí)現(xiàn)了超過(guò)95%的近線性加速比。依托自研的軒轅分布式存儲(chǔ)并通過(guò)多級(jí)緩存優(yōu)化IO瓶頸。同時(shí)建設(shè)了集群穩(wěn)定性保障體系,訓(xùn)練有效時(shí)長(zhǎng)超過(guò) 99%。
多樣本拼接平衡計(jì)算負(fù)載、提高GPU利用率:
長(zhǎng)上下文訓(xùn)練:
vivoLM訓(xùn)練框架
作者基于Megatron-LM,自研了vivoLM訓(xùn)練框架,支持文本和多模態(tài)大模型訓(xùn)練,圍繞以下四大維度進(jìn)行了優(yōu)化:
1)訓(xùn)練性能上,優(yōu)化圖文對(duì)拼接策略以均衡每張卡計(jì)算的token數(shù)量,提升算力利用率。 通過(guò)Context Parallelism + CP組內(nèi)ViT數(shù)據(jù)并行支持32K長(zhǎng)文訓(xùn)練,訓(xùn)練效率是社區(qū)方案的1.66倍。全局Batch Size擴(kuò)至16K,千卡集群加速比達(dá)96.8%。
2)架構(gòu)擴(kuò)展上,模塊化解耦ViT、Adapter與LLM,組件及數(shù)據(jù)處理策略可即插即用。兼容 Megatron-LM、DeepSpeed 等主流訓(xùn)練框架。
3)穩(wěn)定性上,完善框架異常處理機(jī)制并與訓(xùn)練平臺(tái)聯(lián)動(dòng),部分故障場(chǎng)景任務(wù)可自動(dòng)恢復(fù)。萬(wàn)億級(jí)token數(shù)據(jù)、千卡級(jí)預(yù)訓(xùn)練任務(wù)100+小時(shí)零中斷。
4)可觀察性上,實(shí)現(xiàn)了訓(xùn)練過(guò)程的細(xì)粒度監(jiān)控,包括參數(shù)、梯度的L2范數(shù)、AdamW優(yōu)化器內(nèi)部狀態(tài)等。同時(shí)支持了在線評(píng)測(cè),實(shí)時(shí)跟蹤模型效果。
RL訓(xùn)練框架
作者基于 veRL進(jìn)行了定制開(kāi)發(fā),適配藍(lán)心大模型訓(xùn)練并做了性能優(yōu)化。
在性能上借鑒 verl-pipeline方案實(shí)現(xiàn)了One-Step Asyn RL,并將Ray通信切換為NCCL通信,降低參數(shù)更新的通信開(kāi)銷;重寫(xiě)vLLM異步ChatScheduler,動(dòng)態(tài)調(diào)度消除 bubble time以最大化推理吞吐。整體訓(xùn)練性能提升了60%。
為了保障訓(xùn)練穩(wěn)定性,針對(duì)RM服務(wù)作者自動(dòng)化部署多實(shí)例,并將實(shí)例注冊(cè)到名字服務(wù)(VNS),支持訓(xùn)練框架按標(biāo)識(shí)自動(dòng)發(fā)現(xiàn)并調(diào)用服務(wù)。同時(shí)服務(wù)可基于QPS 動(dòng)態(tài)彈性伸縮,避免流量變大后請(qǐng)求延遲變高影響RL訓(xùn)練性能。
技術(shù)報(bào)告: https://arxiv.org/abs/2507.05934
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.