99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

帶圖推理碾壓同類開源模型!港中文微軟等開源OpenThinkIMG框架

0
分享至

教AI學(xué)會使用工具,帶圖推理就能變得更強(qiáng)?!

港中文、微軟聯(lián)合8家單位推出OpenThinkIMG開源框架,這是一個專為提升AI視覺工具使用和推理能力而設(shè)計(jì)的一站式平臺。



眾所周知,我們?nèi)祟愒诮鉀Q問題時,常常會借助視覺工具:解幾何題時畫輔助線,分析圖表時用熒光筆標(biāo)記。這些“動手”操作,極大地增強(qiáng)了我們的認(rèn)知和推理能力。

因此,一旦將同款“動手操作”能力賦予AI,其推理能力也將大大提升。

不過問題是,雖然現(xiàn)在已經(jīng)有很多強(qiáng)大的視覺工具(分割、檢測、OCR等),但讓AI真正學(xué)會如何以及何時智能地使用這些工具,卻面臨巨大挑戰(zhàn):

  • 工具集成難:不同工具接口各異,想把它們整合到一個AI系統(tǒng)里,費(fèi)時費(fèi)力。
  • 訓(xùn)練數(shù)據(jù)缺:教AI用工具,需要大量“示范操作”數(shù)據(jù)。這種數(shù)據(jù)怎么來?質(zhì)量如何保證?
  • 模型適應(yīng)差:傳統(tǒng)方法訓(xùn)練出的AI,往往只會“照本宣科”,遇到新情況就傻眼,缺乏靈活應(yīng)變和自主學(xué)習(xí)的能力。

而OpenThinkIMG框架的出現(xiàn)正是為了解決上述問題,與此同時,團(tuán)隊(duì)還公開了其核心的自適應(yīng)工具使用訓(xùn)練技術(shù)V-ToolRL

下面具體來看。

OpenThinkIMG:為AI打造的“超級工具箱”

如框架圖所示,OpenThinkIMG集工具部署、數(shù)據(jù)生成、智能體訓(xùn)練于一體。



其核心特性如下:

第一,模塊化視覺工具部署 (Tool Deployment)。

簡單來說,它提供標(biāo)準(zhǔn)化的視覺工具接口,無論是已有的成熟工具(如GroundingDINO, SAM, OCR等),還是你自己的新工具,都能輕松接入OpenThinkIMG的“工具箱”。

并且每個工具都可以作為獨(dú)立服務(wù)部署,互不干擾,方便管理和按需擴(kuò)展。AI模型可以通過框架內(nèi)的“工具控制器”按需調(diào)用。

第二,高效的智能體訓(xùn)練框架 (Training Framework)。

它不僅支持傳統(tǒng)的監(jiān)督微調(diào) (SFT),更集成了團(tuán)隊(duì)創(chuàng)新的V-ToolRL (Visual Tool Reinforcement Learning) 算法。

這一算法讓AI通過強(qiáng)化學(xué)習(xí),在與視覺工具的真實(shí)交互中,從錯誤中學(xué)習(xí),自主探索和掌握最佳的工具使用策略。

具體而言,需要先通過SFT進(jìn)行“理論學(xué)習(xí)”(冷啟動),然后通過V-ToolRL進(jìn)行“上路實(shí)操”,根據(jù)任務(wù)完成情況獲得獎勵或懲罰,不斷優(yōu)化策略。

第三,支持高質(zhì)量訓(xùn)練數(shù)據(jù)生成 (Scalable Trajectory Generation)。

為了給V-ToolRL提供優(yōu)質(zhì)的初始“教材”,OpenThinkIMG內(nèi)置了一套團(tuán)隊(duì)提出的高效、可擴(kuò)展的視覺工具使用軌跡生成方法。

具體過程分為三步:

  • AI規(guī)劃師 (GPT-4o) 出馬:先讓大模型規(guī)劃出解決問題的初步工具步驟。
  • 工具真實(shí)執(zhí)行與記錄:調(diào)用OpenThinkIMG中的工具服務(wù),實(shí)際執(zhí)行規(guī)劃,并記錄下每一步的輸入輸出。
  • 嚴(yán)格質(zhì)檢與篩選:結(jié)合AI模型(如Qwen2-VL-72B)、規(guī)則和人工審查,層層把關(guān),確保數(shù)據(jù)質(zhì)量。

△高質(zhì)量視覺軌跡數(shù)據(jù)構(gòu)建流程

通過OpenThinkIMG的這些核心能力,研究者和開發(fā)者可以更專注于模型算法的創(chuàng)新,而不必在工具部署和數(shù)據(jù)準(zhǔn)備上耗費(fèi)過多精力。

OpenThinkIMG + V-ToolRL:表現(xiàn)超過GPT-4.1

團(tuán)隊(duì)在具有挑戰(zhàn)性的圖表推理任務(wù)上,使用OpenThinkIMG框架訓(xùn)練了基于V-ToolRL的智能體。

如圖所示,V-ToolRL在ChartGemma測試集上的性能表現(xiàn)(基于OpenThinkIMG訓(xùn)練)如下:

1、大幅超越SFT:基于一個2B的Qwen2-VL,經(jīng)過V-ToolRL訓(xùn)練后,準(zhǔn)確率比單純SFT提升了28.83個百分點(diǎn);

2、碾壓同類開源模型:V-ToolRL的表現(xiàn)平均超過了如Taco、CogCom等基于監(jiān)督學(xué)習(xí)的工具使用基線12.7個百分點(diǎn),而且團(tuán)隊(duì)的模型參數(shù)量更小;

3、媲美頂尖模型:V-ToolRL的表現(xiàn)超過GPT-4.1,同時和Gemini達(dá)到持平的效果。



結(jié)果充分證明了OpenThinkIMG框架的強(qiáng)大支撐能力,以及V-ToolRL在學(xué)習(xí)自適應(yīng)工具調(diào)用策略上的優(yōu)越性。

那么,V-ToolRL是如何在OpenThinkIMG中學(xué)習(xí)的呢?

通過OpenThinkIMG的訓(xùn)練環(huán)境,團(tuán)隊(duì)觀察到V-ToolRL智能體展現(xiàn)出以下學(xué)習(xí)特性:(a) 工具調(diào)用更高效 (b) 推理更詳盡 (c) V-ToolRL 學(xué)習(xí)更快更好。







具體而言,隨著訓(xùn)練的進(jìn)行,模型平均調(diào)用的工具次數(shù)顯著下降,說明它學(xué)會了“好鋼用在刀刃上”,只在必要時才使用工具。

而且模型生成的答案(包括思考過程)長度增加了,表明它能夠進(jìn)行更詳細(xì)、更深入的推理。

最后,V-ToolRL(集成了視覺工具的反饋)相比純文本的強(qiáng)化學(xué)習(xí),學(xué)習(xí)速度更快,最終效果也更好,證明了“眼見為實(shí)”的重要性。

下圖展示了V-ToolRL在具體問題上的表現(xiàn)。面對復(fù)雜的圖表,V-ToolRL能夠:

  • 餅圖分析 (上):通過ZoomInSubfigure放大關(guān)鍵區(qū)域,再用OCR精準(zhǔn)讀取數(shù)值,最終正確計(jì)算出差異,而直接解讀的模型則容易出錯。
  • 折線圖趨勢 (下):利用Point定位數(shù)據(jù)點(diǎn),DrawVerticalLineByX輔助比較,準(zhǔn)確找出趨勢相同的類別。

△V-ToolRL (上側(cè)工具輔助) vs GPT-4.1 (下側(cè)直接解讀)

這些案例生動地展示了V-ToolRL如何通過結(jié)構(gòu)化的工具調(diào)用,實(shí)現(xiàn)比直接視覺解讀更準(zhǔn)確、更可解釋的推理。

小結(jié)一下,OpenThinkIMG框架的核心貢獻(xiàn)在于:

1、一個開放、強(qiáng)大的工具部署與訓(xùn)練平臺:解決了工具集成和智能體訓(xùn)練的難題。

2、內(nèi)置高效數(shù)據(jù)生成方法:為模型訓(xùn)練提供高質(zhì)量“燃料”。

3、V-ToolRL作為核心訓(xùn)練算法:使AI能夠真正學(xué)會自主、智能地使用視覺工具。

團(tuán)隊(duì)表示,OpenThinkIMG將為開發(fā)能夠真正“用圖像思考”的下一代AI智能體提供堅(jiān)實(shí)的基礎(chǔ)設(shè)施。

未來,他們將繼續(xù)擴(kuò)展OpenThinkIMG支持的工具和模型,探索更復(fù)雜的任務(wù)場景,并期待與社區(qū)共同推動這一激動人心的領(lǐng)域向前發(fā)展。

論文第一作者蘇肇辰為蘇州大學(xué)三年級研究生,香港科技大學(xué)準(zhǔn)博士生,在NeurIPS、ACL等國際頂級會議上發(fā)表多篇研究成果。項(xiàng)目通訊作者為港中文成宇教授

技術(shù)報(bào)告:
https://arxiv.org/pdf/2505.08617
GitHub倉庫:
https://github.com/zhaochen0110/OpenThinkIMG
數(shù)據(jù)集和模型:
https://huggingface.co/collections/Warrieryes/openthinkimg-68244a63e97a24d9b7ffcde9

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普稱與澤連斯基的會談非常不愉快,抱怨援烏資金不知去向

特朗普稱與澤連斯基的會談非常不愉快,抱怨援烏資金不知去向

環(huán)球網(wǎng)資訊
2025-05-17 16:55:35
小學(xué)生被老師掐脖毆打,拎起身子探出3樓窗外,警方已立案

小學(xué)生被老師掐脖毆打,拎起身子探出3樓窗外,警方已立案

揚(yáng)子晚報(bào)
2025-05-17 17:32:31
盧偉冰:本月發(fā)布會將公布新車小米 YU7 的消息,自己也會買一臺

盧偉冰:本月發(fā)布會將公布新車小米 YU7 的消息,自己也會買一臺

IT之家
2025-05-17 20:27:05
印度人問:假如中印開戰(zhàn),中國有多少勝算?俄羅斯專家是這么說的

印度人問:假如中印開戰(zhàn),中國有多少勝算?俄羅斯專家是這么說的

通文知史
2023-12-13 17:35:03
被謝賢養(yǎng)了12年,用青春換來2000萬的Coco,已經(jīng)走上了另一條大道

被謝賢養(yǎng)了12年,用青春換來2000萬的Coco,已經(jīng)走上了另一條大道

科學(xué)發(fā)掘
2025-05-17 12:06:05
84年我被班花當(dāng)眾羞辱,我副團(tuán)轉(zhuǎn)業(yè)后再次相遇,她在酒店做保潔

84年我被班花當(dāng)眾羞辱,我副團(tuán)轉(zhuǎn)業(yè)后再次相遇,她在酒店做保潔

小月故事
2025-05-13 18:31:27
關(guān)于婚姻,陳夢首次發(fā)聲,官宣決定,喊話未來老公,媽媽支持

關(guān)于婚姻,陳夢首次發(fā)聲,官宣決定,喊話未來老公,媽媽支持

樂聊球
2025-05-17 10:50:44
北京韓美林藝術(shù)館黨支部書記郭瑩病逝,終年40歲

北京韓美林藝術(shù)館黨支部書記郭瑩病逝,終年40歲

澎湃新聞
2025-05-17 13:30:27
公務(wù)員收入穩(wěn)定,建議取消機(jī)關(guān)食堂,讓他們?nèi)ソ稚铣燥垇韼酉M(fèi)

公務(wù)員收入穩(wěn)定,建議取消機(jī)關(guān)食堂,讓他們?nèi)ソ稚铣燥垇韼酉M(fèi)

小蘿卜絲
2025-05-15 20:35:43
我在西安吃了碗油潑面,終于明白了,油潑面為啥很難走出三秦大地

我在西安吃了碗油潑面,終于明白了,油潑面為啥很難走出三秦大地

神牛
2025-05-13 15:04:55
一周31人離世!香港驚現(xiàn)變異新冠毒株,感染性高,陳奕迅不幸確診

一周31人離世!香港驚現(xiàn)變異新冠毒株,感染性高,陳奕迅不幸確診

大魚簡科
2025-05-17 14:55:03
女生的胸部和臀部,哪個更吸引男人?其實(shí),答案很簡單

女生的胸部和臀部,哪個更吸引男人?其實(shí),答案很簡單

左與右心理
2025-04-06 09:02:47
勸告邱毅:不要在錯誤的道路越走越遠(yuǎn)

勸告邱毅:不要在錯誤的道路越走越遠(yuǎn)

星光看娛樂
2025-03-31 17:43:58
2比4,出局=解散!5億支出即將壓垮綠軍!簽一個底薪都要花2800萬

2比4,出局=解散!5億支出即將壓垮綠軍!簽一個底薪都要花2800萬

嘴炮體壇
2025-05-17 11:31:47
埃梅里封神之夜,32歲阿根廷國門哭了:疑似告別維拉 將登陸豪門

埃梅里封神之夜,32歲阿根廷國門哭了:疑似告別維拉 將登陸豪門

風(fēng)過鄉(xiāng)
2025-05-17 07:53:13
海口一別墅小區(qū)突發(fā)火情,現(xiàn)場火光沖天!官方最新通報(bào)

海口一別墅小區(qū)突發(fā)火情,現(xiàn)場火光沖天!官方最新通報(bào)

半島晨報(bào)
2025-05-17 19:15:03
我當(dāng)了8年副鎮(zhèn)長未獲提拔,大學(xué)同學(xué)來過后,我直接升官當(dāng)了鎮(zhèn)長

我當(dāng)了8年副鎮(zhèn)長未獲提拔,大學(xué)同學(xué)來過后,我直接升官當(dāng)了鎮(zhèn)長

凱裕說故事
2024-09-06 17:10:43
中國聯(lián)通香港公司提供的5G套餐,如果在境內(nèi)會被罵下架

中國聯(lián)通香港公司提供的5G套餐,如果在境內(nèi)會被罵下架

TMT流程審計(jì)
2025-05-16 23:39:41
惹眾怒!臺灣游客西安乘機(jī)時遭國人“圍攻”,網(wǎng)友:軍人都忍不了

惹眾怒!臺灣游客西安乘機(jī)時遭國人“圍攻”,網(wǎng)友:軍人都忍不了

星光看娛樂
2025-05-14 22:55:04
選舉失利后,馬科斯對華“下戰(zhàn)書”,越南趁勢出手,中方先發(fā)制人

選舉失利后,馬科斯對華“下戰(zhàn)書”,越南趁勢出手,中方先發(fā)制人

阿鳧愛吐槽
2025-05-16 14:18:29
2025-05-18 03:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10494文章數(shù) 176147關(guān)注度
往期回顧 全部

科技要聞

王樹國:梁文鋒如果讀博 還有DeepSeek嗎?

頭條要聞

特朗普:沒我協(xié)議就達(dá)不成 我和普京必須聚在一起

頭條要聞

特朗普:沒我協(xié)議就達(dá)不成 我和普京必須聚在一起

體育要聞

35歲穆勒德甲告別戰(zhàn)被換下 全場鼓掌致敬

娛樂要聞

汪小菲婚禮在亭子里辦儀式好熱鬧

財(cái)經(jīng)要聞

關(guān)鍵時刻,央媽出手了

汽車要聞

小米汽車回應(yīng)前保險杠變形 免費(fèi)取送車和修復(fù)

態(tài)度原創(chuàng)

數(shù)碼
藝術(shù)
教育
公開課
軍事航空

數(shù)碼要聞

9000+ 萬級分區(qū) Mini LED,惠科將推 4K 240Hz 顯示器 G32M12Max

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

桌子進(jìn)價57,賣87收100塊錢假幣,一共虧了多少錢

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

央視披露殲-10CE為何能擊落多架戰(zhàn)機(jī)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 颍上县| 嘉峪关市| 连云港市| 德江县| 辰溪县| 阳新县| 来凤县| 平山县| 日照市| 晋州市| 河津市| 开封县| 蒙自县| 靖远县| 临汾市| 滨州市| 齐齐哈尔市| 无棣县| 武陟县| 乌拉特中旗| 登封市| 南京市| 西乌珠穆沁旗| 济阳县| 上栗县| 云和县| 武夷山市| 安庆市| 普格县| 犍为县| 大新县| 荆门市| 怀安县| 临夏县| 岗巴县| 江津市| 巴东县| 榆中县| 汉寿县| 同江市| 平山县|