網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

帶圖推理碾壓同類開源模型！港中文微軟等開源OpenThinkIMG框架

2025-05-17 12:14:30　來源: 量子位

北京舉報(bào)

分享至

教AI學(xué)會使用工具，帶圖推理就能變得更強(qiáng)？！

港中文、微軟聯(lián)合8家單位推出OpenThinkIMG開源框架，這是一個專為提升AI視覺工具使用和推理能力而設(shè)計(jì)的一站式平臺。

眾所周知，我們?nèi)祟愒诮鉀Q問題時，常常會借助視覺工具：解幾何題時畫輔助線，分析圖表時用熒光筆標(biāo)記。這些“動手”操作，極大地增強(qiáng)了我們的認(rèn)知和推理能力。

因此，一旦將同款“動手操作”能力賦予AI，其推理能力也將大大提升。

不過問題是，雖然現(xiàn)在已經(jīng)有很多強(qiáng)大的視覺工具（分割、檢測、OCR等），但讓AI真正學(xué)會如何以及何時智能地使用這些工具，卻面臨巨大挑戰(zhàn)：

工具集成難：不同工具接口各異，想把它們整合到一個AI系統(tǒng)里，費(fèi)時費(fèi)力。
訓(xùn)練數(shù)據(jù)缺：教AI用工具，需要大量“示范操作”數(shù)據(jù)。這種數(shù)據(jù)怎么來？質(zhì)量如何保證？
模型適應(yīng)差：傳統(tǒng)方法訓(xùn)練出的AI，往往只會“照本宣科”，遇到新情況就傻眼，缺乏靈活應(yīng)變和自主學(xué)習(xí)的能力。

而OpenThinkIMG框架的出現(xiàn)正是為了解決上述問題，與此同時，團(tuán)隊(duì)還公開了其核心的自適應(yīng)工具使用訓(xùn)練技術(shù)V-ToolRL。

下面具體來看。

OpenThinkIMG：為AI打造的“超級工具箱”

如框架圖所示，OpenThinkIMG集工具部署、數(shù)據(jù)生成、智能體訓(xùn)練于一體。

其核心特性如下：

第一，模塊化視覺工具部署 (Tool Deployment)。

簡單來說，它提供標(biāo)準(zhǔn)化的視覺工具接口，無論是已有的成熟工具（如GroundingDINO, SAM, OCR等），還是你自己的新工具，都能輕松接入OpenThinkIMG的“工具箱”。

并且每個工具都可以作為獨(dú)立服務(wù)部署，互不干擾，方便管理和按需擴(kuò)展。AI模型可以通過框架內(nèi)的“工具控制器”按需調(diào)用。

第二，高效的智能體訓(xùn)練框架 (Training Framework)。

它不僅支持傳統(tǒng)的監(jiān)督微調(diào) (SFT)，更集成了團(tuán)隊(duì)創(chuàng)新的V-ToolRL (Visual Tool Reinforcement Learning) 算法。

這一算法讓AI通過強(qiáng)化學(xué)習(xí)，在與視覺工具的真實(shí)交互中，從錯誤中學(xué)習(xí)，自主探索和掌握最佳的工具使用策略。

具體而言，需要先通過SFT進(jìn)行“理論學(xué)習(xí)”（冷啟動），然后通過V-ToolRL進(jìn)行“上路實(shí)操”，根據(jù)任務(wù)完成情況獲得獎勵或懲罰，不斷優(yōu)化策略。

第三，支持高質(zhì)量訓(xùn)練數(shù)據(jù)生成 (Scalable Trajectory Generation)。

為了給V-ToolRL提供優(yōu)質(zhì)的初始“教材”，OpenThinkIMG內(nèi)置了一套團(tuán)隊(duì)提出的高效、可擴(kuò)展的視覺工具使用軌跡生成方法。

具體過程分為三步：

AI規(guī)劃師 (GPT-4o) 出馬：先讓大模型規(guī)劃出解決問題的初步工具步驟。
工具真實(shí)執(zhí)行與記錄：調(diào)用OpenThinkIMG中的工具服務(wù)，實(shí)際執(zhí)行規(guī)劃，并記錄下每一步的輸入輸出。
嚴(yán)格質(zhì)檢與篩選：結(jié)合AI模型（如Qwen2-VL-72B）、規(guī)則和人工審查，層層把關(guān)，確保數(shù)據(jù)質(zhì)量。

△高質(zhì)量視覺軌跡數(shù)據(jù)構(gòu)建流程

通過OpenThinkIMG的這些核心能力，研究者和開發(fā)者可以更專注于模型算法的創(chuàng)新，而不必在工具部署和數(shù)據(jù)準(zhǔn)備上耗費(fèi)過多精力。

OpenThinkIMG + V-ToolRL：表現(xiàn)超過GPT-4.1

團(tuán)隊(duì)在具有挑戰(zhàn)性的圖表推理任務(wù)上，使用OpenThinkIMG框架訓(xùn)練了基于V-ToolRL的智能體。

如圖所示，V-ToolRL在ChartGemma測試集上的性能表現(xiàn)（基于OpenThinkIMG訓(xùn)練）如下：

1、大幅超越SFT：基于一個2B的Qwen2-VL，經(jīng)過V-ToolRL訓(xùn)練后，準(zhǔn)確率比單純SFT提升了28.83個百分點(diǎn)；

2、碾壓同類開源模型：V-ToolRL的表現(xiàn)平均超過了如Taco、CogCom等基于監(jiān)督學(xué)習(xí)的工具使用基線12.7個百分點(diǎn)，而且團(tuán)隊(duì)的模型參數(shù)量更小；

3、媲美頂尖模型：V-ToolRL的表現(xiàn)超過GPT-4.1，同時和Gemini達(dá)到持平的效果。

結(jié)果充分證明了OpenThinkIMG框架的強(qiáng)大支撐能力，以及V-ToolRL在學(xué)習(xí)自適應(yīng)工具調(diào)用策略上的優(yōu)越性。

那么，V-ToolRL是如何在OpenThinkIMG中學(xué)習(xí)的呢？

通過OpenThinkIMG的訓(xùn)練環(huán)境，團(tuán)隊(duì)觀察到V-ToolRL智能體展現(xiàn)出以下學(xué)習(xí)特性：(a) 工具調(diào)用更高效 (b) 推理更詳盡 (c) V-ToolRL 學(xué)習(xí)更快更好。

具體而言，隨著訓(xùn)練的進(jìn)行，模型平均調(diào)用的工具次數(shù)顯著下降，說明它學(xué)會了“好鋼用在刀刃上”，只在必要時才使用工具。

而且模型生成的答案（包括思考過程）長度增加了，表明它能夠進(jìn)行更詳細(xì)、更深入的推理。

最后，V-ToolRL（集成了視覺工具的反饋）相比純文本的強(qiáng)化學(xué)習(xí)，學(xué)習(xí)速度更快，最終效果也更好，證明了“眼見為實(shí)”的重要性。

下圖展示了V-ToolRL在具體問題上的表現(xiàn)。面對復(fù)雜的圖表，V-ToolRL能夠：

餅圖分析 (上)：通過ZoomInSubfigure放大關(guān)鍵區(qū)域，再用OCR精準(zhǔn)讀取數(shù)值，最終正確計(jì)算出差異，而直接解讀的模型則容易出錯。
折線圖趨勢 (下)：利用Point定位數(shù)據(jù)點(diǎn)，DrawVerticalLineByX輔助比較，準(zhǔn)確找出趨勢相同的類別。

△V-ToolRL (上側(cè)工具輔助) vs GPT-4.1 (下側(cè)直接解讀)

這些案例生動地展示了V-ToolRL如何通過結(jié)構(gòu)化的工具調(diào)用，實(shí)現(xiàn)比直接視覺解讀更準(zhǔn)確、更可解釋的推理。

小結(jié)一下，OpenThinkIMG框架的核心貢獻(xiàn)在于：

1、一個開放、強(qiáng)大的工具部署與訓(xùn)練平臺：解決了工具集成和智能體訓(xùn)練的難題。

2、內(nèi)置高效數(shù)據(jù)生成方法：為模型訓(xùn)練提供高質(zhì)量“燃料”。

3、V-ToolRL作為核心訓(xùn)練算法：使AI能夠真正學(xué)會自主、智能地使用視覺工具。

團(tuán)隊(duì)表示，OpenThinkIMG將為開發(fā)能夠真正“用圖像思考”的下一代AI智能體提供堅(jiān)實(shí)的基礎(chǔ)設(shè)施。

未來，他們將繼續(xù)擴(kuò)展OpenThinkIMG支持的工具和模型，探索更復(fù)雜的任務(wù)場景，并期待與社區(qū)共同推動這一激動人心的領(lǐng)域向前發(fā)展。

論文第一作者蘇肇辰為蘇州大學(xué)三年級研究生，香港科技大學(xué)準(zhǔn)博士生，在NeurIPS、ACL等國際頂級會議上發(fā)表多篇研究成果。項(xiàng)目通訊作者為港中文成宇教授。

技術(shù)報(bào)告：
https://arxiv.org/pdf/2505.08617
GitHub倉庫：
https://github.com/zhaochen0110/OpenThinkIMG
數(shù)據(jù)集和模型：
https://huggingface.co/collections/Warrieryes/openthinkimg-68244a63e97a24d9b7ffcde9

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.