99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓模型像o3一樣動手搜索寫代碼!Visual ARFT實現(xiàn)多模態(tài)智能體能力

0
分享至




在大型推理模型(例如 OpenAI-o3)中,一個關鍵的發(fā)展趨勢是讓模型具備原生的智能體能力。具體來說,就是讓模型能夠調(diào)用外部工具(如網(wǎng)頁瀏覽器)進行搜索,或編寫/執(zhí)行代碼以操控圖像,從而實現(xiàn)「圖像中的思考」。

盡管開源研究社區(qū)在純文本的智能體能力方面(比如函數(shù)調(diào)用和工具集成)已取得顯著進展,但涉及圖像理解與操作的多模態(tài)智能體能力及其對應的評估體系仍處于起步階段。

因此,上海交大、上海 AI Lab、港中文、武漢大學的研究團隊最新推出的多模態(tài)智能體訓練方法Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning),專為賦予視覺語言模型(LVLMs)以「工具智能體」能力而設計。

并且,Visual-ARFT 項目已全面開源(包含訓練、評測代碼,數(shù)據(jù)和模型)。如果你對多模態(tài)模型、強化學習、視覺語言理解感興趣,不妨一起來探索更多可能性吧!



  • 論文標題:Visual Agentic Reinforcement Fine-Tuning
  • arXiv 地址: https://arxiv.org/pdf/2505.14246
  • 代碼地址: https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

Visual-ARFT 讓模型不僅能看圖、能理解,還能「動腦推理、動手操作」,主要包括以下三個方面的核心能力:

  • 模型能夠自動調(diào)用搜索引擎查資料或者編寫并執(zhí)行 Python 代碼處理圖像;
  • 面對復雜任務,能夠自主拆解問題、規(guī)劃步驟、調(diào)用合適工具完成任務;
  • 支持多步推理、多模態(tài)輸入,具備強大的跨模態(tài)泛化能力!

如圖 1 所示,本文的方法編寫并執(zhí)行 Python 代碼以精準讀取圖像中特定區(qū)域的文本(上圖),或者通過互聯(lián)網(wǎng)搜索回答多模態(tài)多跳問題(下圖)。



圖 1. 視覺智能體強化微調(diào)(Visual Agentic Reinforcement Fine-Tuning,簡稱 Visual-ARFT)在執(zhí)行復雜的多模態(tài)推理任務中展現(xiàn)出顯著優(yōu)勢,例如:(上圖)編寫并執(zhí)行 Python 代碼以精準讀取圖像中特定區(qū)域的文本,以及(下圖)通過互聯(lián)網(wǎng)搜索回答多跳問題。

同時,為了評估模型的工具調(diào)用和多模態(tài)推理能力,團隊構建了智能體評測基準MAT-Bench (Multimodal Agentic Tool Bench)。測試結果顯示,Visual-ARFT 在多個子任務中全面超越 GPT-4o,通過調(diào)用工具 ——「寫代碼 + 查資料」,展現(xiàn)出了完成復雜多模態(tài)視覺任務的強大潛力。

方法概覽

Visual-ARFT 基于強化微調(diào)的訓練策略,使用 GRPO 的算法來更新模型權重。團隊針對多模態(tài)智能體完成任務的流程,對 LVLM 的多步工具調(diào)用和問題回答設計了 rule-based verifiable reward。通過簡單高效的 reward 設計,驅(qū)動模型自主探索工具的使用方法和思考模式。

團隊在訓練中使用幾十到最多 1.2k 的訓練數(shù)據(jù),通過少量數(shù)據(jù)實現(xiàn)了對模型的多模態(tài)智能體能力的訓練。



圖 2. Visual-ARFT 框圖。主要針對 Agentic Search 和 Agentic Coding 兩類任務的多步推理和工具調(diào)用能力進行優(yōu)化。

Visual-ARFT 針對以下兩類高難度任務場景進行強化訓練:

  • Agentic Search:模型面對多模態(tài)的多跳復雜問題,先對視覺信息進行分析和推理,然后能夠主動進行任務分解、規(guī)劃信息檢索路徑,通過調(diào)用搜索引擎獲取外部知識并整合作答。
  • Agentic Coding:模型面對模糊、旋轉、曝光過強等復雜圖像,能主動生成 Python 代碼完成圖像修復,或剪裁圖像,提取關鍵區(qū)域,并據(jù)此完成視覺問答。

在這一過程中,模型并非簡單輸出結果,而是具備完整的推理結構:



MAT 基準

團隊發(fā)布了全新的多模態(tài)智能體評測基準:MAT(Multimodal Agentic Tool Bench),專門評估多模態(tài)工具調(diào)用能力:

  • MAT-Search:包含 150 道多跳視覺問答任務,人工標注 + 搜索推理;
  • MAT-Coding:包含 200 道復雜圖像問答任務。模型可以直接作答或通過調(diào)用代碼工具處理圖像,輔助作答。

這一基準填補了當前開源模型在「多模態(tài)智能體以及工具調(diào)用」方面的評估空白。



圖 3. MAT 數(shù)據(jù)標注過程。MAT-Search 采用人工標注方法構建多模態(tài)多跳推理 VQA 數(shù)據(jù),MAT-Coding 采用自動化流程構造針對 Agentic Coding 任務的 VQA 數(shù)據(jù)。

Visual-ARFT 實驗結果

團隊基于 Qwen2.5-VL 模型在 MAT 上對本文方法進行了測試。結果顯示,無論在 MAT-Search 還是在 MAT-Coding 上,本文方法都較 baseline 有了顯著的提升,并擊敗了 GPT-4o 模型。

相較于 baseline 模型直接推理的方式,本文方法通過讓 LVLM 學會推理與調(diào)用工具,在解決復雜的多模態(tài)任務時,更加的得心應手。此外,團隊觀察到 OpenAI-o3 模型在一眾開源閉源中取得了遙遙領先的性能,尤其是在 MAT-Coding 上,憑借其多模態(tài)推理和工具調(diào)用能力,斷層式超越了 GPT-4o 模型。



表 1. MAT 測試結果。 Visual-ARFT 相較 baseline 取得了顯著性能提升,擊敗 GPT-4o。開閉源模型距離 OpenAI-o3 模型存在較大性能差距。

為了測試本文方法的泛化能力,團隊選取了 4 個 Out of Domain 的傳統(tǒng) MultihopQA Benchmark 來測試他們的模型,包括 2wikimlutihopQA,HotpotQA,MuSiQue 和 Bamboogle。

結果顯示基于 Visual-ARFT 的 Qwen2.5-VL 模型雖然僅僅使用幾十條數(shù)據(jù)進行訓練,但是模型獲得在這些多跳推理數(shù)據(jù)集上展現(xiàn)出了顯著的性能提升,并擊敗了其他基于強化學習的方法。



表 2. 傳統(tǒng) MultihopQA 測試結果。團隊在 Out of Domain 的多個 multihopQA 上測試了本文方法,展現(xiàn)出 Visual-ARFT 的強大泛化能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
尋親圈風向變了,曾經(jīng)是團寵的孫卓,如今被罵嘴歪眼斜

尋親圈風向變了,曾經(jīng)是團寵的孫卓,如今被罵嘴歪眼斜

阿廢冷眼觀察所
2025-05-28 03:52:47
中國輸巴西,痛失29年世乒賽舉辦權!遭遇4項損失,王勵勤虧大了

中國輸巴西,痛失29年世乒賽舉辦權!遭遇4項損失,王勵勤虧大了

嘴炮體壇
2025-05-28 01:12:57
美媒:兩名美國特勤局女警官被拍到在奧巴馬住所前發(fā)生肢體沖突,涉事警官被停職

美媒:兩名美國特勤局女警官被拍到在奧巴馬住所前發(fā)生肢體沖突,涉事警官被停職

環(huán)球網(wǎng)資訊
2025-05-28 10:25:12
深夜,美股跳水!現(xiàn)貨黃金短線走低

深夜,美股跳水!現(xiàn)貨黃金短線走低

第一財經(jīng)資訊
2025-05-29 00:58:19
爺爺臨終前把存款都給了我,讓我別告訴爸媽,一年后我:爺爺英明

爺爺臨終前把存款都給了我,讓我別告訴爸媽,一年后我:爺爺英明

澤澤先生
2025-05-26 13:56:17
剛剛,昆明市氣象臺發(fā)布暴雨Ⅲ級預警!

剛剛,昆明市氣象臺發(fā)布暴雨Ⅲ級預警!

開屏新聞客戶端
2025-05-28 22:56:57
綠地現(xiàn)重要人事變動 董事長張玉良再度連任

綠地現(xiàn)重要人事變動 董事長張玉良再度連任

中國房地產(chǎn)報官方號
2025-05-28 18:01:15
外交部答澎湃:中方已實現(xiàn)對海合會國家免簽全覆蓋

外交部答澎湃:中方已實現(xiàn)對海合會國家免簽全覆蓋

澎湃新聞
2025-05-28 15:24:32
寧波一棟獨棟別墅降價第二次拍賣,10報名,1150萬成交

寧波一棟獨棟別墅降價第二次拍賣,10報名,1150萬成交

天天話事
2025-05-27 15:57:04
河南商丘設“企業(yè)寧靜日”:每月1日—20日,一般不得進入企業(yè)執(zhí)法

河南商丘設“企業(yè)寧靜日”:每月1日—20日,一般不得進入企業(yè)執(zhí)法

每日經(jīng)濟新聞
2023-07-14 15:47:15
太無語,這群大媽究竟有多貪心,一盆糯米就讓人看得清清楚楚。

太無語,這群大媽究竟有多貪心,一盆糯米就讓人看得清清楚楚。

史書無明
2025-05-28 21:28:00
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
亞朵,擠滿了偷偷開房的中年女人

亞朵,擠滿了偷偷開房的中年女人

快刀財經(jīng)
2025-05-20 22:21:25
女子一天送66單外賣后去世,法醫(yī)尸檢后驚呼:不是累死的!

女子一天送66單外賣后去世,法醫(yī)尸檢后驚呼:不是累死的!

懸案解密檔案
2025-05-23 09:34:33
“火箭軍女神”李莉:因多次預判美軍陰謀,被美國列入制裁黑名單

“火箭軍女神”李莉:因多次預判美軍陰謀,被美國列入制裁黑名單

跳跳歷史
2025-05-14 10:24:39
年薪600萬歐&不想回巴薩!記者:朗格萊想留馬競只能和巴薩解約

年薪600萬歐&不想回巴薩!記者:朗格萊想留馬競只能和巴薩解約

直播吧
2025-05-28 23:54:18
一次又一次挑戰(zhàn)底線,終于引起公憤了!

一次又一次挑戰(zhàn)底線,終于引起公憤了!

末名先生
2025-05-22 16:07:40
好消息!“一車一人一號”新規(guī)來了,不要考駕照,解決出行難題

好消息!“一車一人一號”新規(guī)來了,不要考駕照,解決出行難題

電動車小辣椒
2025-05-26 07:06:24
2場輸了31分,無奈吞下2連敗,鞏曉彬復出也枉然,山東輸?shù)谜骐y看

2場輸了31分,無奈吞下2連敗,鞏曉彬復出也枉然,山東輸?shù)谜骐y看

萌蘭聊個球
2025-05-28 22:01:30
陜西高二女生操場生子,調(diào)查后發(fā)現(xiàn),孩子父親身份令人傻眼

陜西高二女生操場生子,調(diào)查后發(fā)現(xiàn),孩子父親身份令人傻眼

青絲人生
2023-11-30 18:09:24
2025-05-29 05:00:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10547文章數(shù) 142325關注度
往期回顧 全部

科技要聞

DeepSeek R1完成小版本升級,已可體驗

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

體育要聞

東決G4的哈利交出了一場無瑕疵的比賽

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財經(jīng)要聞

74歲王石罕見發(fā)聲,能為萬科做些什么?

汽車要聞

25萬級純電SUV飛坡 特斯拉Model Y來回跳?

態(tài)度原創(chuàng)

藝術
健康
本地
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

本地新聞

中國最費腿的城市,不止重慶

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏均稱遭對方大規(guī)模無人機襲擊

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无锡市| 鄢陵县| 嵊州市| 米脂县| 冕宁县| 重庆市| 五峰| 连平县| 蒲江县| 阳高县| 九龙城区| 牟定县| 正阳县| 兴宁市| 合江县| 壤塘县| 宜兴市| 威远县| 怀仁县| 黔江区| 霍邱县| 禄丰县| 育儿| 宁都县| 马尔康县| 石嘴山市| 海盐县| 温宿县| 镇坪县| 龙里县| 东城区| 安新县| 香港| 铜梁县| 沛县| 阿鲁科尔沁旗| 涪陵区| 原阳县| 郯城县| 临沭县| 全南县|