99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)航海圖出爐:哈工大團隊論文描繪“看聽說想”全能AI

0
分享至

記得麥哲倫第一次揚帆遠航的故事嗎?

那是一個沒有 GPS、沒有衛(wèi)星圖像的年代,水手們只能憑星空、風(fēng)向和羅盤在未知的洋面上摸索前行。

要是眼睛只盯著星星而聽不到風(fēng)聲,或只顧傾聽海浪卻看不見暗礁,那么這趟環(huán)球之旅必定早早擱淺。



多模態(tài)推理的世界與大航海時代頗為相似:如果人工智能只能依賴文字,或只能看圖,而不會理解音視頻,那它們就像在濃霧中失去了半副導(dǎo)航儀。如今,一支由哈爾濱工業(yè)大學(xué)三十余名研究者領(lǐng)航的“探險船隊”,公布了他們的“航海圖”——《感知、推理、思考和計劃:大型多模態(tài)推理模型綜述》(Perception, Reason, Think, and Plan:?A Survey on Large Multimodal Reasoning Models)。

這篇長達近兩百頁的論文,展示了人工智能如何從“只能看或只能說”的單感官小艇,成長為能同時觀天、量海、解讀風(fēng)向的遠洋巨輪。

起航:感知驅(qū)動的模塊化碼頭

黎明時分,研究者們把卷積網(wǎng)絡(luò)與 LSTM 拼裝成“分工明確的小艇”,分別負責(zé)視覺、語言再到對齊與融合。為了讓它們協(xié)同駛向答案,他們在船舷上掛滿“模塊化吊艙”——從 NMN 到 MAC、BAN,再到融合注意力與記憶的異構(gòu)網(wǎng)絡(luò),這些吊艙像貨柜一樣依次裝載在甲板上。



隨著 Transformer 的蒸汽機轟然啟動,燃料換成了海量圖文對,ViLBERT、UNITER 等雙引擎和單引擎巨輪劈波而出;再后來,LLaVA、BLIP?2 等把視覺編碼器直接接入大語言模型,好似在駕駛室里裝了一扇全景天窗。它們能一次性消化場景、問題與上下文,于是推理這件事不再是船底暗艙里的隱蔽齒輪,而是與感知同頻共振的內(nèi)在律動。作者將這一時期稱作“感知驅(qū)動、模塊拼裝”的第一港灣,并指出:雖然船體更大了,真正深邃的邏輯航道卻仍然隱藏在霧后,需要新的羅盤來標(biāo)注暗礁。

加速:語言當(dāng)舵的短距離沖刺

進入第二段水域,語言模型成了統(tǒng)一的舵手。研究者給舵手遞上“多模態(tài)鏈?zhǔn)剿伎肌保∕CoT)這種航海日志:先看,再想,最后確認。IPVR 的“三段式”提示仿佛讓水手們先抬頭望星,再低頭觀潮;VoT 在長視頻中劃出時間節(jié)點,如同在秒針上刻度標(biāo)記。



當(dāng)僅靠口令還不夠精細時,船隊開始在甲板上畫出標(biāo)準(zhǔn)化流程:TextCoT 讓模型先給全景拍張“遠景照片”,再用放大鏡定位細節(jié),最后合成結(jié)論;CoTDet 在目標(biāo)檢測里模擬列清單、辨屬性、寫摘要的人工查驗;而 DDCoT、AVQA?CoT 則把復(fù)雜問題拆成子問句,像船長逐一檢查桅桿、錨鏈與風(fēng)帆的完好度。通過“流程化”與“理由顯式化”,海圖邊緣的誤差被一步步抹平。

大洋深處的未知不止于此。為走得更遠,就要開始外掛搜索算法、外部工具和檢索系統(tǒng):MM?ToT 用 DFS、BFS 在思維樹上摸索最佳航線;HYDRA 把 RL 代理、視覺專家與 LLM 組裝成多工協(xié)作的甲板隊;RAGAR、AR?MCTS 則像補給艦一樣隨航檢索知識,在需要時拋來燃料和淡水。這些“外掛裝備”提升了靈活性,卻也暴露了依賴外援、航速受限的瓶頸。

遠航:系統(tǒng)?2 深思的長距離計劃

當(dāng)航程從沿岸觀光轉(zhuǎn)為跨洋遠航,船隊進入“慢思考”模式,也就是卡尼曼所謂的 System?2。此時,模型不再滿足于短鏈路的即時反應(yīng),而是學(xué)會通過更長、更自省的思考鏈來拆解任務(wù)、規(guī)劃路徑。

在這一階段,跨模態(tài)推理如多媒體信號燈,照亮了文字之外的航跡:VisualReasoner 通過合成多步思考軌跡來訓(xùn)練即插即用的推理模塊;AssistGPT、Multi?Modal?Thought 讓模型在航行途中隨時招呼專家工具,完成局部測深或修帆動作。



與此同時,行業(yè)開始出現(xiàn)“O1 艦系”與“R1 艦系”,前者強調(diào)廣泛的開放指令微調(diào),后者借助偏好對齊與強化學(xué)習(xí)改造大船引擎。DeepSeek?R1、Video?R1 通過 Decoupled Policy Optimization 或 GRPO,讓模型像久經(jīng)風(fēng)浪的老水手,能在連續(xù)回饋中調(diào)整風(fēng)帆角度;但作者也冷靜指出:這些旗艦在長航線、實時交互與多工具并行調(diào)度上依舊失速,離真正的遠洋巨擘還有不短距離。

未來旗艦:原生多模態(tài)巨輪

第四段航線通向尚未命名的深藍——原生大型多模態(tài)推理模型(N?LMRM)。在這里,視覺、語言、音頻、傳感器數(shù)據(jù)不再是外接的救生艇,而是一體成型的船體鋼梁。作者先用對 OpenAI o3、o4?mini 的“海試日記”展示現(xiàn)狀:它們已能在航行中自動裁剪、放大、旋轉(zhuǎn)圖像,也能調(diào)用碼頭工具搜集補給;然而仍會在指認圖片手指數(shù)這種小風(fēng)浪里翻船,偶爾還會把錯誤理由包得天衣無縫,這提示我們:船體雖大,思維龍骨尚未完全成型。



為打造真正的原生巨輪,作者提出兩大核心能力:

一是“多模態(tài)代理式推理”。它要求船只能在浪涌突變時實時調(diào)帆,通過分層任務(wù)拆解、外部工具調(diào)用與具身學(xué)習(xí),在數(shù)字與物理世界間自如穿梭。從 Operater 到 Claude Computer Use,再到 Gemini?2.0,這些早期原型已顯示如何把 GUI、瀏覽器乃至機器人手臂納入航行系統(tǒng)。

二是“全模態(tài)理解與生成”。這意味著船員能聽懂海鷗叫、讀懂星圖、繪制未來海港的草圖,并把它們編織成同一段故事。OpenAI o3 的圖像鏈?zhǔn)剿伎贾皇堑谝豢|曙光,作者預(yù)測,真正的 N?LMRM 將在統(tǒng)一表示空間里無縫創(chuàng)作、分析和規(guī)劃,讓任何模態(tài)都能彼此轉(zhuǎn)譯、共振。

實現(xiàn)這一藍圖,離不開三條造船工藝:一是將強化學(xué)習(xí)從數(shù)學(xué)題擴展到多模態(tài)長鏈推理;二是持續(xù)交互式學(xué)習(xí),把真實世界的風(fēng)浪變?yōu)槟P统砷L的訓(xùn)練集;三是高質(zhì)量數(shù)據(jù)合成流水線,為船體澆筑更堅固的龍骨。

繪制海圖:基準(zhǔn)與數(shù)據(jù)海域

沒有可靠的海圖,再好的船也難以安全抵達彼岸。作者將現(xiàn)有數(shù)據(jù)與評測分為理解、生成、推理、規(guī)劃四大洋域,并細分出視覺中心、音頻中心、跨模態(tài)生成、GUI 操控等十一條航道。VQA、GQA、MMBench 等老牌關(guān)隘依舊重要,而 Video?MMMU、BrowseComp、GTA 等新航標(biāo)則讓長視頻理解、工具鏈推理與復(fù)雜 GUI 操作成為未來測評的必經(jīng)之路。這些基準(zhǔn)不僅標(biāo)尺苛刻,還在實時更新,提示著研究者哪里暗流涌動、哪里可以抄近道。

抵港閑談:航行的意義與拋錨處

說到底,真正打動人的從來不是船體噸位的堆砌,而是老水手在突遇側(cè)風(fēng)時微調(diào)帆角的靈活與從容。多模態(tài)推理的發(fā)展史正暗示著同樣的方向:與其一味擴張參數(shù)海港,不如讓模型學(xué)會在不同浪頭上分配不同的動力。感知、思考、計劃,這三根桅桿并不該永遠滿帆高懸,而應(yīng)像會聽風(fēng)的桅手那樣,先讀懂風(fēng)向,再決定是否要升帆、收帆,還是干脆更換航道。

同樣值得玩味的,是這套邏輯對普通開發(fā)者的友好程度。作者以近乎執(zhí)念的篇幅反復(fù)強調(diào),模塊化對齊、外部工具檢索、長鏈規(guī)劃,這些方法大多并不強求“拆船重造”,大多數(shù)現(xiàn)成模型在不經(jīng)重新訓(xùn)練的前提下就能試水。

更長遠地看,多模態(tài)推理讓“主動分配注意力”成為可能:未來的智能體會像經(jīng)驗老到的航海家,先用最低的能耗掃描整片海域,再把計算火力聚焦到暗礁叢生之處。那時,導(dǎo)航不只是告訴你目的地,還會根據(jù)船身結(jié)構(gòu)、風(fēng)浪強度、補給余量給出實時調(diào)整方案。真正的通用 AI 也許就藏在這種“懂得何時慢、何時快”的節(jié)奏里,它未必始終奔跑,卻始終在思考。

論文地址:https://arxiv.org/pdf/2505.04921

本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個人提供切實可行的解決方案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
又贏了?郭希寬走出法庭揮拳慶祝,李圣表態(tài):對庭審表現(xiàn)很滿意

又贏了?郭希寬走出法庭揮拳慶祝,李圣表態(tài):對庭審表現(xiàn)很滿意

振華觀史
2025-06-26 21:10:32
歐盟只給中國30天,必須解決稀土供應(yīng),否則馮德萊恩取消訪華?

歐盟只給中國30天,必須解決稀土供應(yīng),否則馮德萊恩取消訪華?

小鬼頭體育
2025-06-26 16:03:07
考場外跪謝爺爺?shù)碾p胞胎兄弟高考成績出爐,均超山東一段線,爺爺:孩子正選擇院校,后續(xù)將申請助學(xué)貸款

考場外跪謝爺爺?shù)碾p胞胎兄弟高考成績出爐,均超山東一段線,爺爺:孩子正選擇院校,后續(xù)將申請助學(xué)貸款

極目新聞
2025-06-26 11:20:33
恩怨已久!阿庫尼亞追打鄧弗里斯,此前世界杯時兩人就發(fā)生過口角

恩怨已久!阿庫尼亞追打鄧弗里斯,此前世界杯時兩人就發(fā)生過口角

直播吧
2025-06-26 12:53:07
雷軍:小米YU7要挑戰(zhàn)特斯拉Model Y 網(wǎng)友:可是你腳小啊

雷軍:小米YU7要挑戰(zhàn)特斯拉Model Y 網(wǎng)友:可是你腳小啊

華庭講美食
2025-06-24 12:28:39
青島經(jīng)理:里斯兩年前就向開拓者推薦楊瀚森,為保護他,上賽季只讓他出席1次發(fā)布會

青島經(jīng)理:里斯兩年前就向開拓者推薦楊瀚森,為保護他,上賽季只讓他出席1次發(fā)布會

雷速體育
2025-06-26 10:58:18
文班亞馬宣布退役,回歸少林?交易約基奇,圍繞楊瀚森重建?

文班亞馬宣布退役,回歸少林?交易約基奇,圍繞楊瀚森重建?

籃球神吐槽
2025-06-25 22:51:39
十大元帥的后代,誰的軍銜最高?

十大元帥的后代,誰的軍銜最高?

顧史
2025-06-23 21:36:45
清華退學(xué)男生考貴州第二,清華主動挽回:只要你回來,學(xué)分還作數(shù)!

清華退學(xué)男生考貴州第二,清華主動挽回:只要你回來,學(xué)分還作數(shù)!

熙熙說教
2025-06-26 18:57:43
一位退休干部坦言:農(nóng)民的待遇比城市居民要好!我對此表示很認同

一位退休干部坦言:農(nóng)民的待遇比城市居民要好!我對此表示很認同

明月讀書吧
2025-06-26 14:35:03
在麗江市市長、昆明市市長、玉溪市委書記、云南省副省長等職上,張祖林收受1.22億,被判無期!

在麗江市市長、昆明市市長、玉溪市委書記、云南省副省長等職上,張祖林收受1.22億,被判無期!

新京報
2025-06-26 17:29:20
Deepseek分析今年高考最難的10個省份,看看是否有你的家鄉(xiāng)?

Deepseek分析今年高考最難的10個省份,看看是否有你的家鄉(xiāng)?

悠閑歷史
2025-06-25 14:49:18
河南真慘!高考成績出爐:本科線人數(shù)不足44萬,500分只能上大專

河南真慘!高考成績出爐:本科線人數(shù)不足44萬,500分只能上大專

涵豆說娛
2025-06-26 15:01:45
格力24年老大地位被終結(jié),擊敗它的是國內(nèi)最大空調(diào)集團,日收10億

格力24年老大地位被終結(jié),擊敗它的是國內(nèi)最大空調(diào)集團,日收10億

小樾說歷史
2025-06-12 16:38:56
WTT常規(guī)賽:張本智和大逆轉(zhuǎn)勝國乒!0-2連扳3局,拒絕爆冷一輪游

WTT常規(guī)賽:張本智和大逆轉(zhuǎn)勝國乒!0-2連扳3局,拒絕爆冷一輪游

全言作品
2025-06-26 20:21:40
突發(fā)!智界全系降價!

突發(fā)!智界全系降價!

電動知家
2025-06-26 11:12:44
不管本事如何,到了五十歲,你必須擁有這三項能力

不管本事如何,到了五十歲,你必須擁有這三項能力

阿鄭的讀書日常
2025-06-23 09:37:08
不作不死,香港那個“大班冰皮月餅”倒閉了!

不作不死,香港那個“大班冰皮月餅”倒閉了!

薦史
2025-06-26 00:36:29
中紀委再劃紅線!公務(wù)員下班后吃飯,這4種行為將被嚴肅追責(zé)!

中紀委再劃紅線!公務(wù)員下班后吃飯,這4種行為將被嚴肅追責(zé)!

鬼菜生活
2025-06-17 12:39:27
山西省晉中市發(fā)生地震!

山西省晉中市發(fā)生地震!

魯中晨報
2025-06-26 11:20:02
2025-06-27 01:08:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
177文章數(shù) 145關(guān)注度
往期回顧 全部

科技要聞

小米YU7價格來了!標(biāo)準(zhǔn)版起售價25.35萬元

頭條要聞

小米YU7開啟預(yù)定3分鐘大定破20萬臺 只比SU7貴3萬

頭條要聞

小米YU7開啟預(yù)定3分鐘大定破20萬臺 只比SU7貴3萬

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經(jīng)要聞

央視再揭茅臺鎮(zhèn)“年份酒”造假黑幕

汽車要聞

智界全系2萬元現(xiàn)金減免 豪華智能限時普惠

態(tài)度原創(chuàng)

教育
家居
本地
手機
軍事航空

教育要聞

為啥現(xiàn)在厭學(xué)小孩越來越多?

家居要聞

木質(zhì)簡約 空間極致利用

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

手機要聞

599 元三軸增穩(wěn),影石 Insta360 發(fā)布手機穩(wěn)定器 Flow 2

軍事要聞

滿足特朗普要求 北約峰會通過5%軍費目標(biāo)

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 武义县| 常州市| 壶关县| 阿拉善左旗| 民乐县| 抚宁县| 崇州市| 京山县| 遵义市| 新竹市| 武宁县| 陆川县| 广南县| 靖宇县| 虞城县| 北碚区| 酉阳| 育儿| 雅安市| 沧源| 鸡西市| 新乡市| 紫金县| 府谷县| 图木舒克市| 灯塔市| 夏河县| 伽师县| 台北市| 巫山县| 章丘市| 黎川县| 浙江省| 海盐县| 四子王旗| 杨浦区| 武强县| 读书| 遵义市| 宜黄县| 西盟|