作者 | InfoQ 研究中心
過去半年,大模型賽道出現了一個明顯的拐點:模型尺寸已經不再是唯一賣點,“推理能力”成了新的分水嶺。從 OpenAI o1 發布,首次將推理能力作為模型的重要特點,到春節期間引爆社區討論的 DeepSeek-R1,推理能力已成為“新賽點”,全球主流廠商幾乎在同一時間把“Reasoning”“Thinking”“Logic”寫進了版本號。
各家廠商推理模型發布時間軸
然而,市場上對模型的真實推理水平的把握依舊模糊。為此,InfoQ 研究中心發起了一次針對八款熱門模型的系統性評測,希望為科研機構和產業團隊提供一份既能讀懂又能用得上的能力指南。更多內容也歡迎各位讀者點擊「閱讀原文」,下載完整報告進行閱讀。
評測圍繞邏輯推理、數學推理、語言推理、多步推理以及幻覺控制五大維度展開。300 道題庫中包含超過 90% 的原創試題,覆蓋 3 個難度梯度、涵蓋多學科和多題型,并確保評分可量化、難度分層合理。
推理模型綜合測評體系說明
評測對象包括 DeepSeek-R1、k1.5、Claude-3.7-Sonnet-Reasoning、GLM-Z1、Doubao-1.5-thinking-pro、o3、文心 X1 Turbo 以及 Qwen3-235B-A22B。參與測試的推理模型、版本號及測試渠道如下。
參與測評模型和版本說明
整體而言,八款模型在幻覺控制、數學推理和邏輯推理三個維度表現最為突出。相對地,多步推理依然是推理模型共同的短板。
各評測維度推理模型平均得分率
在測試過程中,我們記錄了推理模型的思考時長,我們在模型回答準確性和思考時長之間也發現了一些有趣的現象。例如,在數學推理維度,推理模型在面臨以數字和符號為主的代數領域問題時,能夠保障一定的回答準確性的同時,平均思考時長也較短,但來到涉及平面或空間幾何結構的幾何維度和更接近數學原理的數論時,平均準確率驟降至約六成,且推理耗時則翻了一倍。
復雜科學推理,涵蓋了化學、物理、生物醫藥和工程學等跨學科的綜合難題。推理模型雖然嘗試進行了更長時間的思考(平均思考時長超過 200 秒),但整體回答準確性僅在 20% 左右,是所有維度中平均思考四件最長,但準確性最低的子維度。
推理模型各子維度平均得分率和平均思考時間矩陣
在語言推理方面,我們也很驚喜地發現,已經有部分模型萌生了對漢字的左右、上下、包圍等字形結構的認知能力。在我們前期的一道測試題中,“口 + 勿能組成什么字?”,有部分模型不僅回答出了擁有常見結構的“吻”,還捕捉到了相對冷門的“囫”。
至于幻覺控制,雖然整體可控,但呈現出更隱蔽的特征:推理模型存在更大的概率提供包含虛構的數據、產品名稱、論文名稱、發布時間等看似充滿邏輯性細節的回答,使非專業讀者難以一眼識別錯誤。
當我們把焦點投向不同維度,各家推理模型的表現時,o3 在數學推理和多步推理兩項位居榜首,文心 X1 Turbo 則在幻覺控制和語言推理兩項位居第一,而 Qwen3-235B-A22B 在邏輯推理維度表現最佳。更多內容也歡迎各位讀者點擊「閱讀原文」,下載完整報告進行閱讀。
評測各維度 Top5 模型得分情況
除了數據上的表現外,近期推理模型的集中發布,也讓推理模型的發展趨勢變得更清晰。例如,視覺推理模型將圖片融入了思維鏈;Claude 4 能夠連續編程 7 小時,并修改多文件項目……這些變化共同指向一個趨勢:推理模型正從“一個大腦”演變為“帶工具的多能智能體”,其評測維度和應用邊界都在同步擴展。
InfoQ 研究中心將持續跟蹤多模態推理、Agent 框架、工具鏈整合以及安全對齊等方向的最新進展,并在后續報告中提供更細粒度的數據與案例分析。歡迎讀者關注后續更新,與我們一同見證推理能力邁向下一階段的真正拐點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.