始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。A800/H20等算力6.25元/卡時,支持在線微調訓練,及線部署和。
在多模態推理模型快速發展的今天,數學推理(如MathVista,MathVerse,MathVison等)與學科知識推理(如MMMU)已有成熟評測基準。然而,涉及購買決策、財報解讀、票據分析、路線規劃等復雜OCR場景的推理能力卻長期缺乏系統性評估標準。
針對這一空白,OCR-Reasoning基準應運而生,其核心亮點主要是:填補了OCR場景下復雜推理能力評估的空白;定義了系統化的評估流程,劃分出六大推理能力,幫助研究者更好的理解模型在某方面能力的缺陷;為多模態推理模型的研發與優化提供了關鍵標尺和方向指引。
該基準包含1069道手工標注題目和1022張圖片,覆蓋空間推理、數值分析、枚舉推理、數學推理、邏輯推理、多學科知識推理六大推理能力,且答案極少直接來自原文,需深度推理,現已上線始智AI-wisemodel開源社區,歡迎使用和體驗。
數據集地址
https://wisemodel.cn/datasets/mxxin/OCR-Reasoning
01.
現有OCR評測的局限
當前OCR相關評測如DocVQA,TextVQA,InfographicVQA, OCRBench等基準主要聚焦于信息抽取任務(如實體識別、鍵值對提取),這類任務通常依賴“快思考”(Fast Thinking)即可解決,難以評估模型在以下場景所需的深度推理能力:在空間關系理解方面,無法有效考察模型對文字空間布局分析、元素關聯判斷的能力;在數值計算與分析領域,難以評判其對表格數據運算、圖表趨勢解讀的水平;在邏輯推理與批判性思維層面,無法衡量基于圖文信息進行演繹歸納得出結論的能力;在多學科知識應用場景下,難以評估手寫物理、化學題目解答等能力。
02.
覆蓋六大推理能力的基準
為系統評估OCR場景下的模型推理能力,研究者推出了OCR-Reasoning 基準,其核心亮點包括:
高質量數據集:
數據集包含1069 道手工精心標注的題目和1022張圖片。在獲取圖片以后,標注人員根據圖片設計對應的問題,設計好問題以后,有兩種標注推理過程和答案的路徑。第一條路徑由Gemini-2.0-flash進行對推理過程和答案的標注。第二條路徑由標注人員對推理過程和答案進行標注。
標注完成后,另外的標注人員對兩條路徑的標注結果進行質量評分,保留較高質量的標注版本。在獲得了標注好的數據以后,標注人員會再對數據進行檢查和糾正,最后獲得標注好的數據。獲得最終標注數據后,三名標注人員獨立地將每條數據歸類至六個預定義類別之一。最終的類別由三個標注人員之間的多數共識決定。
標注流程如圖所示
六大推理能力全覆蓋:
1. 空間推理:空間推理關注模型對文本與視覺元素之間空間關系,以及圖文混排圖像中布局元素進行推理的能力;
2. 數值分析:數值分析推理涉及對文字密集圖像中數值變化的計算,包括成本效益購買決策、增長率估算、財務報告分析、日程規劃以及數據解讀等;
3.枚舉推理:枚舉推理專注于在文本豐富的圖像中計數滿足特定查詢條件的文本和視覺元素;
4.數學推理:數學推理涉及在包含大量文字的圖像中運用數學知識解決數學問題(例如函數圖像、幾何圖像、統計等)。和現有數學數據對比:題目由標注人員手抄獲取,極大提升OCR場景貼合度;
5. 邏輯推理:邏輯推理需要批判性思維,并通過提供的文本豐富的圖像進行推論以得出結論。;
6.多學科知識推理:跨學科知識推理涉及應用跨領域知識(例如物理、化學)來解釋文本豐富的圖像中的文本和視覺元素。主要都是手抄的物理、化學題目。
強推理導向:
與現有的OCR相關的基準(答案多為圖像原文)不同,OCR-Reasoning的答案極少直接來自原文,要求模型必須進行深度推理(如下圖所示)。現有OCR相關的基準答案中大部分可直接復制原文,而OCR-Reasoning僅2.3%的答案可以從原文提取。
和現有數據集典型案例對比:
現有的基準中的任務:“發票中的總金額是多少?” → 答案可直接通過讀取圖片中的文本獲得。
OCR-Reasoning中的任務:“根據促銷海報計算滿3件打折后最低單價” → 需整合價格、折扣規則、商品信息進行推理和計算。
03.
揭示模型現狀與關鍵發現
研究團隊對主流開源與閉源模型進行了全面評測,包括:
閉源模型:DouBao-1.5-Vision-Pro, O1, Claude-3.7;
開源模型:Qwen2.5-VL, Llama4-Scout, InternVL3, Kimi-VL-Thinking等;
基線方法:OCR識別結果+LLM(O3-mini和DeepSeek-R1)。
實驗的結果如下表所示:
發現1: 視覺信息是OCR推理的命脈
在使用相同的語言模型 Qwen2.5-32B 作為基礎模型的設置下,純文本模型 DeepSeek-R1-Distill-Qwen-32B+OCR 的準確率為 26.5%,而多模態模型 Qwen2.5-VL-32B 的準確率則達到 36.2%,兩者相差 9.7 個百分點。這表明圖像輸入對于文本豐富的圖像推理任務至關重要。
發現2: 經過RL訓練的開源多模態推理模型在OCR推理任務上仍需優化
VLAA-Thinker-Qwen2.5VL-7B 和 MM-Eureka-Qwen-7B 均基于 Qwen2.5-VL-7B 進行 RL 訓練。訓練后,模型的數學推理與邏輯推理能力顯著提升,但空間推理和數值分析推理能力則有所下降。因此,如何設計適用于 OCR 推理任務的 RL 算法,是一個值得深入研究的方向。
發現3: 現有技術還有很大的進步空間
盡管Doubao-1.5-Vision-Pro在文本豐富圖像理解任務中表現出色(例如DocVQA: 96.7%,InfoVQA: 89.3%,ChartQA: 87.4%),其文本豐富圖像推理準確率仍低于50%,僅有46.8%。其他頂尖的商用多模態大模型例如OpenAI-o1和Gemini-2.0-flash模型也只是分別達到44.4%和39.3%的準確率。這些發現凸顯了文本豐富圖像推理任務的獨特復雜性,特別是需要同步處理視覺文本信息、文本內容和邏輯推理。
CoT對模型性能的影響
論文同時也測試了CoT對模型性能的影響,結果如下表所示。
對于大部分模型,思維鏈提示能持續提升其性能。比如,思維鏈提示分別使Qwen2.5-VL-32B的性能提升3.2%,GPT-4o提升4.2%。然而,在VL-Rethinker-7B模型上,思維鏈提示通常會導致性能下降。這一現象可能源于VL-Rethinker-7B內置的強制性反思機制。在推理階段額外添加思維鏈提示會打破訓練與測試條件的一致性,導致性能退化。
CoT對模型的推理路徑進行評估
論文對閉源的多模態大模型的推理路徑也進行了評估(論文采用了LLM as Judges的方式來對推理路徑進行評估),結果如下表所示。
推理路徑得分的排名與基于最終答案準確性的排名相似,除了Gemini和Claude-3.7-Sonnet這兩個模型。具體而言,Gemini-2.0-Flash和Claude-3.7-Sonnet的高分主要歸因于其比較高質量的推理過程。下面通過一個例子來說明這一點。
如下圖所示,Gemini-2.0-Flash推理過程中出現的微小錯誤導致了最終答案錯誤,但整體推理過程仍基本合理。因此,大語言模型(LLM)對其問題推理路徑仍然給予了相對較高的評分。
為方便社區使用,OCR-Reasoning 評測代碼已集成至 VLMevalkit 工具包,支持研究者一鍵進行評估,極大提升效率。
OCR-Reasoning 基準的發布,填補了OCR場景下復雜推理能力評估的空白,為多模態推理模型的研發與優化提供了重要的評測依據和方向指引。其揭示的模型現狀也表明,OCR推理仍是充滿挑戰的前沿領域,期待未來更多突破。
編輯:成蘊年
----- END -----
wisemodel相關:
系統升級:
大賽報名:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.