記得麥哲倫第一次揚帆遠航的故事嗎?
那是一個沒有 GPS、沒有衛(wèi)星圖像的年代,水手們只能憑星空、風(fēng)向和羅盤在未知的洋面上摸索前行。
要是眼睛只盯著星星而聽不到風(fēng)聲,或只顧傾聽海浪卻看不見暗礁,那么這趟環(huán)球之旅必定早早擱淺。
多模態(tài)推理的世界與大航海時代頗為相似:如果人工智能只能依賴文字,或只能看圖,而不會理解音視頻,那它們就像在濃霧中失去了半副導(dǎo)航儀。如今,一支由哈爾濱工業(yè)大學(xué)三十余名研究者領(lǐng)航的“探險船隊”,公布了他們的“航海圖”——《感知、推理、思考和計劃:大型多模態(tài)推理模型綜述》(Perception, Reason, Think, and Plan:?A Survey on Large Multimodal Reasoning Models)。
這篇長達近兩百頁的論文,展示了人工智能如何從“只能看或只能說”的單感官小艇,成長為能同時觀天、量海、解讀風(fēng)向的遠洋巨輪。
起航:感知驅(qū)動的模塊化碼頭
黎明時分,研究者們把卷積網(wǎng)絡(luò)與 LSTM 拼裝成“分工明確的小艇”,分別負責(zé)視覺、語言再到對齊與融合。為了讓它們協(xié)同駛向答案,他們在船舷上掛滿“模塊化吊艙”——從 NMN 到 MAC、BAN,再到融合注意力與記憶的異構(gòu)網(wǎng)絡(luò),這些吊艙像貨柜一樣依次裝載在甲板上。
隨著 Transformer 的蒸汽機轟然啟動,燃料換成了海量圖文對,ViLBERT、UNITER 等雙引擎和單引擎巨輪劈波而出;再后來,LLaVA、BLIP?2 等把視覺編碼器直接接入大語言模型,好似在駕駛室里裝了一扇全景天窗。它們能一次性消化場景、問題與上下文,于是推理這件事不再是船底暗艙里的隱蔽齒輪,而是與感知同頻共振的內(nèi)在律動。作者將這一時期稱作“感知驅(qū)動、模塊拼裝”的第一港灣,并指出:雖然船體更大了,真正深邃的邏輯航道卻仍然隱藏在霧后,需要新的羅盤來標(biāo)注暗礁。
加速:語言當(dāng)舵的短距離沖刺
進入第二段水域,語言模型成了統(tǒng)一的舵手。研究者給舵手遞上“多模態(tài)鏈?zhǔn)剿伎肌保∕CoT)這種航海日志:先看,再想,最后確認。IPVR 的“三段式”提示仿佛讓水手們先抬頭望星,再低頭觀潮;VoT 在長視頻中劃出時間節(jié)點,如同在秒針上刻度標(biāo)記。
當(dāng)僅靠口令還不夠精細時,船隊開始在甲板上畫出標(biāo)準(zhǔn)化流程:TextCoT 讓模型先給全景拍張“遠景照片”,再用放大鏡定位細節(jié),最后合成結(jié)論;CoTDet 在目標(biāo)檢測里模擬列清單、辨屬性、寫摘要的人工查驗;而 DDCoT、AVQA?CoT 則把復(fù)雜問題拆成子問句,像船長逐一檢查桅桿、錨鏈與風(fēng)帆的完好度。通過“流程化”與“理由顯式化”,海圖邊緣的誤差被一步步抹平。
大洋深處的未知不止于此。為走得更遠,就要開始外掛搜索算法、外部工具和檢索系統(tǒng):MM?ToT 用 DFS、BFS 在思維樹上摸索最佳航線;HYDRA 把 RL 代理、視覺專家與 LLM 組裝成多工協(xié)作的甲板隊;RAGAR、AR?MCTS 則像補給艦一樣隨航檢索知識,在需要時拋來燃料和淡水。這些“外掛裝備”提升了靈活性,卻也暴露了依賴外援、航速受限的瓶頸。
遠航:系統(tǒng)?2 深思的長距離計劃
當(dāng)航程從沿岸觀光轉(zhuǎn)為跨洋遠航,船隊進入“慢思考”模式,也就是卡尼曼所謂的 System?2。此時,模型不再滿足于短鏈路的即時反應(yīng),而是學(xué)會通過更長、更自省的思考鏈來拆解任務(wù)、規(guī)劃路徑。
在這一階段,跨模態(tài)推理如多媒體信號燈,照亮了文字之外的航跡:VisualReasoner 通過合成多步思考軌跡來訓(xùn)練即插即用的推理模塊;AssistGPT、Multi?Modal?Thought 讓模型在航行途中隨時招呼專家工具,完成局部測深或修帆動作。
與此同時,行業(yè)開始出現(xiàn)“O1 艦系”與“R1 艦系”,前者強調(diào)廣泛的開放指令微調(diào),后者借助偏好對齊與強化學(xué)習(xí)改造大船引擎。DeepSeek?R1、Video?R1 通過 Decoupled Policy Optimization 或 GRPO,讓模型像久經(jīng)風(fēng)浪的老水手,能在連續(xù)回饋中調(diào)整風(fēng)帆角度;但作者也冷靜指出:這些旗艦在長航線、實時交互與多工具并行調(diào)度上依舊失速,離真正的遠洋巨擘還有不短距離。
未來旗艦:原生多模態(tài)巨輪
第四段航線通向尚未命名的深藍——原生大型多模態(tài)推理模型(N?LMRM)。在這里,視覺、語言、音頻、傳感器數(shù)據(jù)不再是外接的救生艇,而是一體成型的船體鋼梁。作者先用對 OpenAI o3、o4?mini 的“海試日記”展示現(xiàn)狀:它們已能在航行中自動裁剪、放大、旋轉(zhuǎn)圖像,也能調(diào)用碼頭工具搜集補給;然而仍會在指認圖片手指數(shù)這種小風(fēng)浪里翻船,偶爾還會把錯誤理由包得天衣無縫,這提示我們:船體雖大,思維龍骨尚未完全成型。
為打造真正的原生巨輪,作者提出兩大核心能力:
一是“多模態(tài)代理式推理”。它要求船只能在浪涌突變時實時調(diào)帆,通過分層任務(wù)拆解、外部工具調(diào)用與具身學(xué)習(xí),在數(shù)字與物理世界間自如穿梭。從 Operater 到 Claude Computer Use,再到 Gemini?2.0,這些早期原型已顯示如何把 GUI、瀏覽器乃至機器人手臂納入航行系統(tǒng)。
二是“全模態(tài)理解與生成”。這意味著船員能聽懂海鷗叫、讀懂星圖、繪制未來海港的草圖,并把它們編織成同一段故事。OpenAI o3 的圖像鏈?zhǔn)剿伎贾皇堑谝豢|曙光,作者預(yù)測,真正的 N?LMRM 將在統(tǒng)一表示空間里無縫創(chuàng)作、分析和規(guī)劃,讓任何模態(tài)都能彼此轉(zhuǎn)譯、共振。
實現(xiàn)這一藍圖,離不開三條造船工藝:一是將強化學(xué)習(xí)從數(shù)學(xué)題擴展到多模態(tài)長鏈推理;二是持續(xù)交互式學(xué)習(xí),把真實世界的風(fēng)浪變?yōu)槟P统砷L的訓(xùn)練集;三是高質(zhì)量數(shù)據(jù)合成流水線,為船體澆筑更堅固的龍骨。
繪制海圖:基準(zhǔn)與數(shù)據(jù)海域
沒有可靠的海圖,再好的船也難以安全抵達彼岸。作者將現(xiàn)有數(shù)據(jù)與評測分為理解、生成、推理、規(guī)劃四大洋域,并細分出視覺中心、音頻中心、跨模態(tài)生成、GUI 操控等十一條航道。VQA、GQA、MMBench 等老牌關(guān)隘依舊重要,而 Video?MMMU、BrowseComp、GTA 等新航標(biāo)則讓長視頻理解、工具鏈推理與復(fù)雜 GUI 操作成為未來測評的必經(jīng)之路。這些基準(zhǔn)不僅標(biāo)尺苛刻,還在實時更新,提示著研究者哪里暗流涌動、哪里可以抄近道。
抵港閑談:航行的意義與拋錨處
說到底,真正打動人的從來不是船體噸位的堆砌,而是老水手在突遇側(cè)風(fēng)時微調(diào)帆角的靈活與從容。多模態(tài)推理的發(fā)展史正暗示著同樣的方向:與其一味擴張參數(shù)海港,不如讓模型學(xué)會在不同浪頭上分配不同的動力。感知、思考、計劃,這三根桅桿并不該永遠滿帆高懸,而應(yīng)像會聽風(fēng)的桅手那樣,先讀懂風(fēng)向,再決定是否要升帆、收帆,還是干脆更換航道。
同樣值得玩味的,是這套邏輯對普通開發(fā)者的友好程度。作者以近乎執(zhí)念的篇幅反復(fù)強調(diào),模塊化對齊、外部工具檢索、長鏈規(guī)劃,這些方法大多并不強求“拆船重造”,大多數(shù)現(xiàn)成模型在不經(jīng)重新訓(xùn)練的前提下就能試水。
更長遠地看,多模態(tài)推理讓“主動分配注意力”成為可能:未來的智能體會像經(jīng)驗老到的航海家,先用最低的能耗掃描整片海域,再把計算火力聚焦到暗礁叢生之處。那時,導(dǎo)航不只是告訴你目的地,還會根據(jù)船身結(jié)構(gòu)、風(fēng)浪強度、補給余量給出實時調(diào)整方案。真正的通用 AI 也許就藏在這種“懂得何時慢、何時快”的節(jié)奏里,它未必始終奔跑,卻始終在思考。
論文地址:https://arxiv.org/pdf/2505.04921
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個人提供切實可行的解決方案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.