網易首頁 > 網易號 > 正文申請入駐

Anthropic團隊：AI推理評測存在哪些問題？

2025-06-18 23:09:12　來源: 至頂頭條

北京舉報

分享至

想象一下，如果有人告訴你某個學生在數學考試中得了零分，你可能會認為這個學生數學很差。但如果你后來發現，這個學生其實會做題，只是因為答題紙不夠大，寫不下完整的解答過程，你還會認為他數學不好嗎？這正是人工智能領域最近發生的一個有趣故事。

這項由Anthropic公司的C. Opus和Open Philanthropy的A. Lawsen共同完成的研究發表于2025年6月10日，以"The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. (2025)"為題發布在arXiv預印本平臺上。有興趣深入了解的讀者可以通過arXiv:2506.09250v1訪問完整論文。這項研究就像一個"打假"行動，揭露了之前一項聲稱發現AI推理能力存在根本缺陷的研究實際上可能誤導了整個學術界。

故事要從Shojaee等人在2025年初發表的一項研究說起。這些研究者聲稱他們發現了一個驚人的現象：那些被譽為具有強大推理能力的大型推理模型（想象成非常聰明的AI助手）在解決復雜的邏輯謎題時會出現"準確率崩潰"的現象。簡單來說，就是這些AI在面對稍微復雜一點的問題時，突然就變得像完全不會思考一樣，準確率直接掉到零。這個發現如果屬實，將對AI推理研究產生重大影響，因為它意味著這些看似聰明的AI系統存在根本性的局限。

然而，Anthropic和Open Philanthropy的研究團隊通過細致的分析發現，這個所謂的"推理能力崩潰"可能是一個巨大的誤解。他們的發現就像揭穿了一個精心包裝的魔術表演，讓人們看到了真相背后的機關。

一、AI其實知道自己的"答題紙"不夠大

研究團隊首先發現的最關鍵問題，就像我們開頭提到的答題紙不夠大的比喻一樣真實。當他們仔細查看AI模型的實際輸出時，發現了一個被原研究忽視的重要細節：這些AI模型其實完全知道自己面臨的限制。

想象你正在解決一個需要寫出上萬個步驟的數學題，但你的答題紙只能寫幾千個字。一個聰明的學生會怎么做？他可能會寫到一半時說："接下來的步驟我都知道怎么做，但為了不讓答案太長，我就停在這里了。" 這正是AI模型在做的事情。

Twitter上一位名叫@scaling01的用戶在重現漢諾塔問題（一種經典的邏輯謎題，就像把不同大小的盤子按順序移動的游戲）時，捕捉到了AI模型的真實反應。模型明確表示："這個模式會繼續下去，但為了避免回答太長，我就停在這里了。" 這說明AI完全理解解決方案的模式，只是選擇不完整列舉所有步驟，就像一個懂禮貌的學生知道什么時候該停筆一樣。

這個發現就像撕掉了魔術師手套，讓人們看到了真相。原來所謂的"推理崩潰"，很可能只是AI遇到了物理限制——就像一個再聰明的人也不可能在一張便簽紙上寫出一本書的內容一樣。

研究團隊進一步分析了這種誤判可能帶來的統計學謬誤。假設一個AI模型每寫一個字符的準確率是99.9%，看起來已經非常高了。但如果要求它寫出一萬個字符的完美答案，那么全部正確的概率就變成了0.999的一萬次方，結果幾乎為零。這就像要求一個射箭高手連續射中一萬次靶心一樣，即使每次命中率很高，連續成功的概率也會變得微乎其微。

更有趣的是，已經有研究者在學術文獻中提出過類似的"統計必然性"論證，聲稱這證明了大型語言模型存在根本性的擴展限制。但這種論證的前提是假設模型無法認識和適應自己的局限性，而現在的證據表明這個假設是錯誤的。AI模型就像聰明的學生一樣，它們知道自己的能力邊界，并會相應地調整策略。

二、不可能的謎題讓AI背了黑鍋

如果說第一個發現讓人驚訝，那么第二個發現就讓人哭笑不得了。研究團隊發現，在原研究的河流過橋問題（一種經典的邏輯謎題，想象不同的人要過河，但船的容量有限，而且有各種約束條件）中，存在一個更加嚴重的問題：有些題目根本就無解。

想象一下這樣的情景：老師給學生出了一道數學題，要求學生求出"最大的質數是多少"。當學生回答"這個問題沒有答案，因為質數有無窮多個"時，老師卻因為學生沒有給出一個具體數字而給了零分。這聽起來很荒謬，但這正是原研究中發生的事情。

根據數學理論，當河流過橋問題中的人數超過5個，而船的容量只有3個人時，這個問題就變得無解了。這是一個早已被數學家證明的結論，就像我們知道圓的面積公式一樣確定。但原研究卻要求AI模型解決6個或更多人的過橋問題，然后當AI無法給出解答時，就認為這是AI推理能力的失敗。

這就好比讓一個計算機程序去解決"1+1=3"這樣的錯誤等式，然后因為程序拒絕給出答案而認為程序有問題。實際上，能夠識別出問題無解，本身就體現了良好的邏輯推理能力。一個真正優秀的SAT求解器（專門解決邏輯滿足性問題的程序）在遇到無解的問題時，會明確返回"無解"，而不是隨便給出一個錯誤答案。

這種評測方式的問題在于，它使用了完全自動化的評分系統，無法區分"推理失敗"和"正確識別問題無解"之間的差別。就像一個只會按標準答案打分的機器，無法理解學生可能比出題者更聰明的情況。

三、物理限制不等于智力缺陷

為了更深入地理解這個問題，研究團隊詳細分析了為什么會出現所謂的"準確率崩潰"。他們發現，這個現象完全可以用物理約束來解釋，就像解釋為什么人不能舉起比自己重十倍的東西一樣簡單。

漢諾塔問題是一個經典的遞歸問題，就像俄羅斯套娃一樣，大問題包含小問題，小問題又包含更小的問題。解決N個盤子的漢諾塔問題需要2的N次方減1步移動。當N等于15時，需要32767步；當N等于20時，需要超過一百萬步。如果按照原研究的要求，需要詳細列出每一步的完整移動序列，那么所需的文字數量會呈指數級增長。

研究團隊通過數學計算發現，如果每步移動大約需要5個文字標記來描述，那么解決不同規模的漢諾塔問題所需的總標記數會快速超過AI模型的輸出限制。對于Claude-3.7-Sonnet和DeepSeek-R1這兩個模型，它們的輸出限制是64000個標記，理論上最多能完整解決7到8層的漢諾塔問題。而o3-mini模型的輸出限制是100000個標記，最多能解決8層的問題。

有趣的是，原研究報告的"崩潰點"正好對應這些物理限制。這就像發現一個人在負重50公斤時走得很好，但超過60公斤就走不動了，然后有人聲稱這證明了人類運動能力存在神秘的缺陷，而實際上這只是正常的物理極限。

更令人深思的是，研究團隊指出了復雜度定義的問題。原研究使用"組合深度"（即最少移動步數）作為問題復雜度的衡量標準，但這就像用菜譜的長度來衡量菜品的制作難度一樣不合理。一道需要燉煮八小時的簡單湯品，其菜譜可能比一道需要精確掌握火候的快手菜更長，但并不意味著前者更難制作。

實際上，漢諾塔問題雖然需要指數級的移動步數，但每一步的決策過程都是線性的、確定的，不需要復雜的搜索或推理。相比之下，河流過橋問題雖然移動步數較少，但需要復雜的約束滿足和搜索過程，在計算復雜度理論中屬于NP困難問題。這就解釋了為什么AI模型能夠"執行"數百步的漢諾塔移動，卻可能在5步的河流過橋問題上遇到困難。

四、換個角度看問題，真相大白

最有說服力的證據來自研究團隊設計的一個巧妙實驗。他們沒有要求AI模型列出漢諾塔問題的完整移動序列，而是要求模型編寫一個計算機程序來解決這個問題。這就像不要求學生在考試中手工計算復雜的數學運算，而是讓他們編寫計算公式一樣。

結果令人印象深刻：當面對15層的漢諾塔問題時，原本被認為完全無法解決的AI模型（包括Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3和Google Gemini 2.5）都表現出了很高的準確率，而且只用了不到5000個標記就完成了任務。這些生成的程序正確地實現了遞歸算法，展現了模型對問題本質的深刻理解。

這個發現就像給了那些懷疑AI推理能力的人一記響亮的耳光。原來AI并非不會推理，而是之前的評測方式就像要求鋼琴家用拳擊手套彈奏肖邦一樣不合理。當給予合適的表達方式時，AI展現出的推理能力令人刮目相看。

研究團隊承認，由于預算限制，他們無法進行大規模的統計驗證，但初步結果已經足夠說明問題的關鍵所在。這就像在黑暗中點亮了一盞明燈，雖然還不能照亮整個房間，但已經足以讓人看清前進的方向。

五、重新思考AI能力評估的標準

這項研究揭示了一個更深層的問題：我們應該如何正確評估AI的推理能力？就像評判一個廚師不應該只看他能否在限定時間內做出一百道菜，而應該看他對烹飪原理的理解和創新能力一樣，評估AI推理能力也需要更加科學和全面的方法。

研究團隊提出了幾個重要的觀點。首先，評估系統必須能夠區分推理能力和輸出約束。這就像一個好的老師能夠區分學生是真的不會做題，還是因為時間不夠而沒有完成。自動化評分系統雖然效率高，但往往缺乏這種細致的判斷能力。

其次，在評估AI能力之前，必須驗證問題本身的可解性。這聽起來像是常識，但在實際研究中卻經常被忽視。就像在數學競賽中，出題者必須確保每道題都有解一樣，AI評測也應該遵循同樣的原則。

第三，復雜度的衡量標準應該反映計算難度，而不僅僅是解決方案的長度。這就像評估一個工程項目的難度不應該只看施工圖的頁數，而應該考慮設計的創新性、技術挑戰和實施復雜度。

最后，應該考慮多種解決方案的表示形式，以區分算法理解和具體執行。這就像評估一個建筑師不應該只看他能否親手砌墻，而應該看他的設計能力和對建筑原理的掌握。

研究團隊強調，未來的AI能力評估應該遵循四個基本原則。評估設計應該能夠區分推理能力和輸出限制，就像好的考試能夠真正測試學生的理解水平而不是記憶能力一樣。在評估模型表現之前應該驗證問題的可解性，這是任何科學評估的基本要求。使用反映計算難度而非僅僅是解決方案長度的復雜度指標，能夠更準確地衡量真正的推理挑戰。最后，考慮多種解決方案表示形式有助于將算法理解與具體執行分離開來。

六、這場爭論的更深層意義

這項研究的意義遠遠超出了對單一學術論文的批評。它揭示了AI研究領域中一個普遍存在的問題：我們經常被表面現象所迷惑，而忽視了問題的本質。

就像古代人看到太陽東升西落就認為太陽圍繞地球轉動一樣，我們有時也會因為觀察方法的局限而得出錯誤的結論。這項研究提醒我們，在得出關于AI能力的重大結論之前，必須仔細檢查我們的觀察方法和評估標準。

更重要的是，這項研究突出了跨學科合作的重要性。來自不同機構的研究者通過合作，能夠以不同的視角審視同一個問題，從而發現單一研究團隊可能忽視的問題。這就像多個偵探共同破案，每個人的獨特觀察角度都可能提供關鍵線索。

研究團隊在論文中風趣地寫道："問題不在于大型推理模型是否能夠推理，而在于我們的評估是否能夠區分推理和打字。" 這句話雖然聽起來輕松，但觸及了問題的核心：我們需要更加智慧的方法來評估人工智能的真正能力。

這項研究也反映了科學研究的自我糾錯機制。當一項研究發表后，其他研究者會仔細審查其方法和結論，這種同行評議過程雖然有時會產生爭議，但正是這種機制保證了科學知識的可靠性和進步。

說到底，這場學術爭論實際上展現了科學研究最美好的一面：對真理的不懈追求。無論是最初聲稱發現AI推理缺陷的研究團隊，還是后來指出評測問題的研究者，他們都在為更好地理解人工智能的能力而努力。雖然他們的結論截然不同，但這種學術辯論正是推動領域進步的動力。

歸根結底，這項研究告訴我們一個重要道理：在人工智能快速發展的時代，我們既不應該盲目樂觀，也不應該過分悲觀。相反，我們需要以更加科學、客觀的態度來評估AI的真正能力和局限性。只有這樣，我們才能在AI發展的道路上穩步前進，既充分發揮其潛力，又避免不必要的恐慌或誤解。

對于普通人來說，這項研究提醒我們要以批判性思維看待關于AI能力的各種聲明。就像我們不會僅憑一個人在特定條件下的表現就判斷他的整體能力一樣，我們也不應該僅憑單一評測就對AI的推理能力下定論。真正的智慧在于理解評測條件、方法的局限性，以及結果的適用范圍。

這場學術爭論最終可能會推動AI評估方法的改進，就像歷史上每一次科學爭論都會推動研究方法的進步一樣。對于那些有興趣深入了解這個話題的讀者，建議查閱原始論文以獲得更詳細的技術細節和數據分析。這種第一手的學術體驗能夠幫助我們更好地理解科學研究的復雜性和嚴謹性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.