美國蘋果公司AI研究人員于當?shù)貢r間6月8日發(fā)表題為《思考的錯覺:通過問題復雜性視角理解推理模型的優(yōu)勢與局限》的論文。
研究結(jié)果表明,大語言模型(LLM)和大推理模型(LRM)在解決數(shù)學問題時,可能并非真正進行邏輯推理,而是高度依賴訓練數(shù)據(jù)中的概率性模式匹配。
為突破現(xiàn)有評估方法的局限,該研究采用了新型基準測試和可控環(huán)境。在分析LRM推理機制時,研究者摒棄了GSM8K等傳統(tǒng)數(shù)學基準,轉(zhuǎn)而使用可系統(tǒng)性調(diào)控復雜度的謎題環(huán)境(包括漢諾塔、跳棋過河、積木世界等)。
受測LRM包括:OpenAI的o3-mini(medium及high配置)、DeepSeek-R1、DeepSeek-R1-Qwen-32B以及Anthropic的Claude 3.7 Sonnet Thinking。
研究獲得以下重要發(fā)現(xiàn)(部分摘錄):
■ 復雜度超閾值即現(xiàn)精準度崩塌
即便最先進的LRM,當謎題復雜度(通過圓盤數(shù)、棋子數(shù)、人數(shù)、積木數(shù)等調(diào)控)超過特定臨界值后,其準確率會完全崩潰。這表明模型尚未發(fā)展出可泛化的問題解決能力。
■ 推理努力存在非直觀縮放極限
LRM的推理努力(以思考token量衡量)會隨問題復雜度增長至某臨界點,此后即便提供充足token預算,反而出現(xiàn)反直覺的下降趨勢。這揭示了LRM應對復雜問題時存在根本性的能力上限。
■ 推理軌跡呈現(xiàn)三階段特征模式
對LRM生成的中間推理軌跡分析顯示:較簡單問題時出現(xiàn)"過度思考"現(xiàn)象——找到正確答案后仍持續(xù)無效探索;中等復雜度問題多呈現(xiàn)"試錯修正"模式;而高復雜度問題則完全無法獲得正確答案。這些模式表明LRM的自我修正能力存在明確邊界。
蘋果研究團隊最終結(jié)論指出:"真正的推理能力仍遙不可及"。
"我們的研究揭示了當前模型的根本局限。盡管具備精細的自我反思機制,但這些模型一旦超越特定復雜度閾值,就無法發(fā)展出可泛化的推理能力",研究者強調(diào)當前技術路徑可能面臨通用推理能力的根本性障礙。
這已是蘋果公司第二次發(fā)布相關結(jié)論。去年10月其研究論文就指出,現(xiàn)有LLM難以實現(xiàn)真正意義上的推理。
結(jié)語
此前外界一度認為,蘋果公司在AI大模型領域是落后的,是一直處于跟隨者的角色的。此次蘋果的論文認為:現(xiàn)在主流的大模型根本不是在推理而只是在根據(jù)訓練數(shù)據(jù)進行概率性模式匹配,那么蘋果是不是早就弄清楚了現(xiàn)階段AI大模型的本質(zhì),在背后憋著一股子猛勁兒,準備搞一個大活兒呢?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.