讓模型像o3一樣動手搜索寫代碼!Visual ARFT實現(xiàn)多模態(tài)智能體能力

2025-05-27 14:44:02　來源: 機器之心Pro

北京舉報

分享至

在大型推理模型（例如 OpenAI-o3）中，一個關鍵的發(fā)展趨勢是讓模型具備原生的智能體能力。具體來說，就是讓模型能夠調(diào)用外部工具（如網(wǎng)頁瀏覽器）進行搜索，或編寫/執(zhí)行代碼以操控圖像，從而實現(xiàn)「圖像中的思考」。

盡管開源研究社區(qū)在純文本的智能體能力方面（比如函數(shù)調(diào)用和工具集成）已取得顯著進展，但涉及圖像理解與操作的多模態(tài)智能體能力及其對應的評估體系仍處于起步階段。

因此，上海交大、上海 AI Lab、港中文、武漢大學的研究團隊最新推出的多模態(tài)智能體訓練方法Visual-ARFT（Visual Agentic Reinforcement Fine-Tuning），專為賦予視覺語言模型（LVLMs）以「工具智能體」能力而設計。

并且，Visual-ARFT 項目已全面開源（包含訓練、評測代碼，數(shù)據(jù)和模型）。如果你對多模態(tài)模型、強化學習、視覺語言理解感興趣，不妨一起來探索更多可能性吧！

論文標題：Visual Agentic Reinforcement Fine-Tuning
arXiv 地址: https://arxiv.org/pdf/2505.14246
代碼地址: https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

Visual-ARFT 讓模型不僅能看圖、能理解，還能「動腦推理、動手操作」，主要包括以下三個方面的核心能力：

模型能夠自動調(diào)用搜索引擎查資料或者編寫并執(zhí)行 Python 代碼處理圖像；
面對復雜任務，能夠自主拆解問題、規(guī)劃步驟、調(diào)用合適工具完成任務；
支持多步推理、多模態(tài)輸入，具備強大的跨模態(tài)泛化能力！

如圖 1 所示，本文的方法編寫并執(zhí)行 Python 代碼以精準讀取圖像中特定區(qū)域的文本（上圖），或者通過互聯(lián)網(wǎng)搜索回答多模態(tài)多跳問題（下圖）。

圖 1. 視覺智能體強化微調(diào)（Visual Agentic Reinforcement Fine-Tuning，簡稱 Visual-ARFT）在執(zhí)行復雜的多模態(tài)推理任務中展現(xiàn)出顯著優(yōu)勢，例如：（上圖）編寫并執(zhí)行 Python 代碼以精準讀取圖像中特定區(qū)域的文本，以及（下圖）通過互聯(lián)網(wǎng)搜索回答多跳問題。

同時，為了評估模型的工具調(diào)用和多模態(tài)推理能力，團隊構建了智能體評測基準MAT-Bench (Multimodal Agentic Tool Bench)。測試結果顯示，Visual-ARFT 在多個子任務中全面超越 GPT-4o，通過調(diào)用工具 ——「寫代碼 + 查資料」，展現(xiàn)出了完成復雜多模態(tài)視覺任務的強大潛力。

方法概覽

Visual-ARFT 基于強化微調(diào)的訓練策略，使用 GRPO 的算法來更新模型權重。團隊針對多模態(tài)智能體完成任務的流程，對 LVLM 的多步工具調(diào)用和問題回答設計了 rule-based verifiable reward。通過簡單高效的 reward 設計，驅(qū)動模型自主探索工具的使用方法和思考模式。

團隊在訓練中使用幾十到最多 1.2k 的訓練數(shù)據(jù)，通過少量數(shù)據(jù)實現(xiàn)了對模型的多模態(tài)智能體能力的訓練。

圖 2. Visual-ARFT 框圖。主要針對 Agentic Search 和 Agentic Coding 兩類任務的多步推理和工具調(diào)用能力進行優(yōu)化。

Visual-ARFT 針對以下兩類高難度任務場景進行強化訓練：

Agentic Search：模型面對多模態(tài)的多跳復雜問題，先對視覺信息進行分析和推理，然后能夠主動進行任務分解、規(guī)劃信息檢索路徑，通過調(diào)用搜索引擎獲取外部知識并整合作答。
Agentic Coding：模型面對模糊、旋轉、曝光過強等復雜圖像，能主動生成 Python 代碼完成圖像修復，或剪裁圖像，提取關鍵區(qū)域，并據(jù)此完成視覺問答。

在這一過程中，模型并非簡單輸出結果，而是具備完整的推理結構：

MAT 基準

團隊發(fā)布了全新的多模態(tài)智能體評測基準：MAT（Multimodal Agentic Tool Bench），專門評估多模態(tài)工具調(diào)用能力：

MAT-Search：包含 150 道多跳視覺問答任務，人工標注 + 搜索推理；
MAT-Coding：包含 200 道復雜圖像問答任務。模型可以直接作答或通過調(diào)用代碼工具處理圖像，輔助作答。

這一基準填補了當前開源模型在「多模態(tài)智能體以及工具調(diào)用」方面的評估空白。

圖 3. MAT 數(shù)據(jù)標注過程。MAT-Search 采用人工標注方法構建多模態(tài)多跳推理 VQA 數(shù)據(jù)，MAT-Coding 采用自動化流程構造針對 Agentic Coding 任務的 VQA 數(shù)據(jù)。

Visual-ARFT 實驗結果

團隊基于 Qwen2.5-VL 模型在 MAT 上對本文方法進行了測試。結果顯示，無論在 MAT-Search 還是在 MAT-Coding 上，本文方法都較 baseline 有了顯著的提升，并擊敗了 GPT-4o 模型。

相較于 baseline 模型直接推理的方式，本文方法通過讓 LVLM 學會推理與調(diào)用工具，在解決復雜的多模態(tài)任務時，更加的得心應手。此外，團隊觀察到 OpenAI-o3 模型在一眾開源閉源中取得了遙遙領先的性能，尤其是在 MAT-Coding 上，憑借其多模態(tài)推理和工具調(diào)用能力，斷層式超越了 GPT-4o 模型。

表 1. MAT 測試結果。 Visual-ARFT 相較 baseline 取得了顯著性能提升，擊敗 GPT-4o。開閉源模型距離 OpenAI-o3 模型存在較大性能差距。

為了測試本文方法的泛化能力，團隊選取了 4 個 Out of Domain 的傳統(tǒng) MultihopQA Benchmark 來測試他們的模型，包括 2wikimlutihopQA，HotpotQA，MuSiQue 和 Bamboogle。

結果顯示基于 Visual-ARFT 的 Qwen2.5-VL 模型雖然僅僅使用幾十條數(shù)據(jù)進行訓練，但是模型獲得在這些多跳推理數(shù)據(jù)集上展現(xiàn)出了顯著的性能提升，并擊敗了其他基于強化學習的方法。

表 2. 傳統(tǒng) MultihopQA 測試結果。團隊在 Out of Domain 的多個 multihopQA 上測試了本文方法，展現(xiàn)出 Visual-ARFT 的強大泛化能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.