99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

多模態大模型學會回頭「看」:中科院自動化所提出GThinker模型

0
分享至



盡管多模態大模型在數學、科學等結構化任務中取得了長足進步,但在需要靈活解讀視覺信息的通用場景下,其性能提升瓶頸依然顯著。現有模型普遍依賴基于知識的思維模式,卻缺乏對視覺線索的深度校驗與再思考能力,導致在復雜場景下頻繁出錯。

為解決這一難題,來自中科院自動化研究所紫東太初大模型研究中心的研究者提出 GThinker,一個旨在實現通用多模態推理的新型多模態大模型。

GThinker 的核心在于其創新的「線索引導式反思(Cue-Guided Rethinking)」模式,它賦予了模型在推理過程中主動校驗、修正視覺理解的能力。

通過精心設計的兩階段訓練流程,GThinker 在極具挑戰性的 M3CoT 綜合推理基準上取得了超越了最新的 O4-mini 模型,并在多個數學及知識推理榜單上展現出 SOTA 性能,證明了該方法的有效性和泛化能力。目前,論文、數據及模型均已開源。



  • 論文鏈接:https://arxiv.org/abs/2506.01078
  • 項目地址:https://github.com/jefferyZhan/GThinker
  • 開源倉庫:https://huggingface.co/collections/JefferyZhan/gthinker-683e920eff706ead8fde3fc0

慢思考的瓶頸:

當模型在通用場景「視而不見」

當前,無論是開源的 Qwen2.5-VL,還是閉源的 GPT-4o,多模態大模型的能力邊界正在被不斷拓寬。尤其在引入了思維鏈(CoT)等慢思考策略后,模型在數學、科學等邏輯密集型任務上的表現得到了顯著增強。

然而,這些進步并未完全轉化為在通用多模態場景下的推理能力。與擁有明確答案和嚴格邏輯結構的數理任務不同,通用場景(如理解一幅畫的寓意、分析復雜的日常情景)往往涉及:

  • 高度的視覺依賴:答案強依賴于對圖像中多個、甚至有歧義的視覺線索的正確解讀。
  • 復雜的推理路徑:沒有固定的解題范式,需要模型根據具體問題靈活組織推理步驟。

現有方法,無論是基于結構化 CoT 的,還是基于結果獎勵強化學習的,都存在明顯的局限性。它們在推理中一旦對某個視覺線索產生誤判,往往會「一條道走到黑」,缺乏中途 「回頭看」、修正認知偏差的機制。



現有主流多模態推理方法的特點與局限性

GThinker:

從 「思維鏈」 到 「再思考鏈」

為了打破這一瓶頸,研究團隊提出了 GThinker,其核心是一種全新的推理模式 ——「線索引導式反思」(Cue-Guided Rethinking)。該模式將推理過程升級為一種更接近人類思維的「思考 - 反思 - 修正」閉環,它不強制規定僵化的推理結構,而是要求模型在自由推理后,對關鍵視覺線索進行一次系統性的回溯驗證。



Cue-Rethinking核心流程,虛線框代表可能進行

整個過程分為三個階段:

1. 自由初始推理:模型根據問題和圖像內容,自由地進行一步步推理,同時使用

標簽標記出其所依賴的關鍵視覺線索。

2. 反思觸發:在初步推理鏈完成后,一個反思提示(如 「Let's verify each visual cue and its reasoning before finalizing the answer.」)被觸發,引導模型進入基于再思考階段。

3. 基于視覺線索的反思:模型逐一回顧所有標記的視覺線索,檢查其解釋是否存在不一致、錯誤或遺漏。一旦發現問題,模型會修正或補充對該線索的理解,并基于新的理解重新進行推理,最終得出結論。



GThinker推理模式示例

以上圖為例,GThinker 在初步推理中可能將圖形誤判為 「螃蟹」。但在再思考階段,它會發現 「紅色三角形更像蝦頭而非蟹身」、「藍粉組合更像蝦尾而非蟹鉗」,從而修正整個推理路徑,最終得出正確答案 「蝦」。這種機制使得 GThinker 能夠有效處理有歧義或誤導性的視覺信息,極大地提升了推理的準確性。

兩階段訓練法:

如何教會模型進行再思考?

為了讓模型內化這種強大的反思能力,GThinker 設計了一套環環相扣的兩階段訓練框架。



GThinker整體訓練流程示例圖

模式引導冷啟動

不同于數理領域在預訓練后自然涌現的反思能力,單純依靠來結果獎勵強化學習 「探索」 出如此復雜的再思考行為,不僅成本高昂且效率低下。因此,GThinker 首先通過監督微調的方式,為模型 「冷啟動」 構建基于視覺線索的再思考能力。

為此,首先通過「多模態迭代式標注」構建了一個包含 7K 高質量冷啟動樣本數據集:利用 GPT-4o、O1、O3 等多個先進模型的互補優勢,對覆蓋通用、數學、科學三大領域的復雜問題進行迭代式地推理和標注,生成了包含高質量再思考路徑的訓練數據。

在訓練時,GThinker 采用「模式引導選擇性格式化」策略,僅對那些基座模型會產生視覺誤判的樣本應用完整的 「反思鏈」 格式,其余則保留為標準推理格式。這使得模型能夠學會在 「需要時」才進行反思,而非機械地執行。

激勵強化學習

在掌握 「如何思考」 以及基于視覺線索進行 「再思考」 的能力基礎上,GThinker 進一步引入基于可驗證獎勵的強化學習方法,設計混合獎勵機制并構建覆蓋多種推理類型的多場景訓練數據,以持續激勵模型在多樣化任務中進行主動探索,從而實現思維模式的跨場景泛化遷移。

  • 多場景數據構建:廣泛收集開源推理數據,并通過 embedding 聚類的方式進行均衡和多樣性采樣,從中精選包含約 4K 條多場景、多任務的強化學習訓練數據集,為泛化能力的提升提供數據保障。

  • DAPO 訓練:相較于 GRPO,DAPO 采用動態采樣的方式,保證 batch 樣本的有效性,并應用無 KL 和 clip higher 等策略,更適用于長鏈思考和探索,使模型學會在不同場景下選擇最優推理方式。



  • 混合獎勵計算:針對選擇題、數學題等常見任務類型,分別采用精確匹配、Math-Verify 工具校驗的方式計算獎勵,對于通用場景下常見的開放式簡答題,通過加入格式化響應讓模型回答歸納到短語或單詞的形式,以應用精確匹配的計算方式,從而確保了獎勵信號的準確性和進一步拓展支持任務的多樣性。

結果

在復雜、多步及多領域的多模態推理基準 M3CoT 上,GThinker 在多個場景的測試中超過當前先進的開源多模態推理模型及 O4-mini。



在通用場景(MMStar、RealWorldQA)、多學科場景(MMMU-Pro)及數學基準測試中,GThinker 實現了優于或不遜于現有先進模型的表現,證明了 GThinker 所學的再思考能力并未造成 「偏科」,而是實現了整體通用能力提升。



盡管 GThinker 的數據均為復雜推理任務構建,但經過這一方法及數據的訓練后,當前最領先的開源模型依然能夠在通用指標上進一步提升。研究團隊選取了OpenCompass 閉源多模態榜單中 10B 規模下最新排名前三的開源模型,在學術榜單上進行測試。結果顯示,GThinker 在這三款模型上均帶來約 1 個百分點左右的平均性能提升,進一步印證了其方法的有效性與泛化能力。



Demo





特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

寒士之言本尊
2025-07-18 01:15:03
河南美女記者轉行“擦邊主播”,暴露了當下普通人的認知黑洞

河南美女記者轉行“擦邊主播”,暴露了當下普通人的認知黑洞

李月亮
2025-07-20 20:42:32
Siegel:吉迪與公牛合同談判差1000萬,因要價高其他球隊無真正興趣

Siegel:吉迪與公牛合同談判差1000萬,因要價高其他球隊無真正興趣

雷速體育
2025-07-22 08:43:30
被以色列炸懵的敘利亞:菜鳥總統的錯覺與代價

被以色列炸懵的敘利亞:菜鳥總統的錯覺與代價

Wilsonhe8
2025-07-19 21:50:46
ESPN交易評級:快船簽回保羅獲評A,球隊新賽季后場深度尤其充足

ESPN交易評級:快船簽回保羅獲評A,球隊新賽季后場深度尤其充足

雷速體育
2025-07-22 07:57:07
49歲趙薇,傳來新消息!

49歲趙薇,傳來新消息!

山西晚報
2025-07-21 18:51:54
我和堂姐退休后,我選擇躺平,她再就業,十年后我們生活天差地別

我和堂姐退休后,我選擇躺平,她再就業,十年后我們生活天差地別

明月讀書吧
2025-07-19 15:10:03
網友稱剛剛看完《戲臺》,覺得它能上映就是個奇跡

網友稱剛剛看完《戲臺》,覺得它能上映就是個奇跡

丫頭舫
2025-07-21 09:59:06
宗馥莉隱秘婚姻被扒:高官前夫落馬,背后牽扯美國驚天大案

宗馥莉隱秘婚姻被扒:高官前夫落馬,背后牽扯美國驚天大案

互聯網大觀
2025-07-17 09:58:02
英偉達CEO黃仁勛:總感覺公司快倒閉了

英偉達CEO黃仁勛:總感覺公司快倒閉了

魯中晨報
2025-07-21 11:28:05
深夜,大漲!納指,史上首次!

深夜,大漲!納指,史上首次!

證券時報
2025-07-22 00:12:03
廣東4歲女童爬山失蹤,數百警力上山搜救,草窩發現狀態讓人后怕

廣東4歲女童爬山失蹤,數百警力上山搜救,草窩發現狀態讓人后怕

小鹿姐姐情感說
2025-07-21 15:26:46
背刺中國,陷害孟晚舟的真兇被挖出來后,如今遭到了哪些報應?

背刺中國,陷害孟晚舟的真兇被挖出來后,如今遭到了哪些報應?

新語愛八卦
2025-07-21 16:11:26
天水幼兒園通報匯總:頂級、集體而并發的愚昧

天水幼兒園通報匯總:頂級、集體而并發的愚昧

熊太行
2025-07-20 20:31:23
父親是央視領導,他卻偏不當關系戶,娶二婚妻子,46歲才走紅

父親是央視領導,他卻偏不當關系戶,娶二婚妻子,46歲才走紅

跳跳歷史
2025-07-21 15:13:45
郭德綱攜家屬玩郵輪,王惠母子大變樣,一個滿臉橫肉一個嘴歪臉斜

郭德綱攜家屬玩郵輪,王惠母子大變樣,一個滿臉橫肉一個嘴歪臉斜

TVB的四小花
2025-07-21 15:21:53
中央四大駐港機構都是什么規格?

中央四大駐港機構都是什么規格?

混沌錄
2025-07-20 22:39:11
偉大的電話!利物浦今夏4筆重磅引援,均由斯洛特說服球員加盟

偉大的電話!利物浦今夏4筆重磅引援,均由斯洛特說服球員加盟

直播吧
2025-07-21 19:44:14
國務院:任命謝遠生為工信部副部長,凌志峰為公安部副部長

國務院:任命謝遠生為工信部副部長,凌志峰為公安部副部長

界面新聞
2025-07-21 17:57:59
大V拿證據實錘國乒世界冠軍,欠千萬巨債,欺騙老百姓,猛料被扒

大V拿證據實錘國乒世界冠軍,欠千萬巨債,欺騙老百姓,猛料被扒

寒士之言本尊
2025-07-21 23:10:03
2025-07-22 09:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10911文章數 142388關注度
往期回顧 全部

科技要聞

洋老板"認慫"放權,合資電車終于能打了?

頭條要聞

印媒詢問中方從富士康召回中國員工問題 中國大使回應

頭條要聞

印媒詢問中方從富士康召回中國員工問題 中國大使回應

體育要聞

這四位大兄弟,你們真敢要3000萬吶

娛樂要聞

五哈全員為寶石老舅送祝福

財經要聞

白宮力推的5000億美元AI計劃陷僵局

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

健康
親子
數碼
房產
公開課

呼吸科專家破解呼吸道九大謠言!

親子要聞

眼科醫生告訴你毀掉孩子視力的三大誤區

數碼要聞

華為官宣旗艦平板新品,周四見!

房產要聞

歷時15年!廣州最難拆的一條村,也終于走到了句點

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 合作市| 富宁县| 天峻县| 青阳县| 建阳市| 辛集市| 敖汉旗| 潼南县| 旅游| 长沙市| 阿城市| 綦江县| 博白县| 潮安县| 本溪市| 宝应县| 清新县| 新化县| 康乐县| 桂东县| 邓州市| 仙桃市| 双峰县| 曲沃县| 右玉县| 同江市| 盖州市| 玉门市| 井研县| 稻城县| 张家界市| 桃源县| 九江县| 塔河县| 庆元县| 吉林市| 长岭县| 贵港市| 会昌县| 宁蒗| 合作市|