用戶和投資者一直對蘋果在AI的動作遲緩感到不滿,它既不自己研究前沿大模型,對于采納外部模型也非常謹慎。這次WWDC會又一次跳票Siri和其他重要的Apple Intelligence功能。
可能有一個最重要的原因,是蘋果一直覺得大模型不靠譜。
蘋果在自己的網站上公開了一篇論文,認為推理大模型(LRM)的思考能力,無非是幻覺。而8個月前,幾乎是同一組研究員,指出了大語言模型(LLM)中數學推理的局限性。
這次他們對比了LRM與LLM,在同等計算預算下,他們發現:
低復雜度任務:LLM反而優于LRM;
中等復雜度任務:LRM通過增加“思考”展現出優勢;
高復雜度任務:兩類模型均出現全面崩潰。
蘋果研究團隊并不相信大模型的基準測試,而是自己設計了一個測試環境。尤其是在編程和數學領域的基準模型,研究團隊認為存在數據污染問題,即用于模型訓練的數據與基準數據出現了直接或間接的重合。
這次,蘋果研究團隊構建了一個可控制解謎環境 (controllable puzzle environments ),采用了四個智力游戲,以可控的任務評估LRM的推理能力:漢諾塔(Tower of Hanoi) ,跳棋(Checker Jumping) ,渡河(River Crossing) ,積木世界(Blocks World) 。
他們發現,即便是當前最先進的LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking),在面對不同環境下復雜度提升的問題時,依然無法形成可泛化的問題求解能力,其準確率最終在某一復雜度之后全面崩潰。
(說明:在不同解謎環境中,推理模型的準確率與思考 token 數量隨問題復雜度的變化趨勢如下:隨著復雜度上升,模型最初會投入更多的思考 token,準確率則逐漸下降,直到達到某個臨界點——此時推理過程崩潰,模型表現急劇下滑,且推理努力也隨之減少。)
蘋果團隊對當前以最終準確率為主的評估方式提出了質疑,并引入中間推理過程(thinking traces),借助確定性的解謎模擬器對其進行擴展分析,發現隨著問題復雜度上升,正確解答在思考軌跡中系統性地較遲出現,相比之下錯誤解答更早出現,這為理解LRM內部的自我糾錯機制提供了量化線索。
這對激烈的推理模型競賽是當頭棒喝,當下的推理模型的訓練范式可能存在著一個根本缺陷,面對真正復雜的問題,擴展定律 (scaling law) 又遇到天花板了:思維 token 的使用量在超過某一復雜度后,反而呈現出反直覺的下降趨勢。
這似乎再一次證明了蘋果同一個研究團隊在8個月前得出的結論:“我們進一步探究了這類模型數學推理能力的脆弱性,發現隨著題目中語句數量的增加,其性能會顯著下降。我們推測,這種性能惡化的根本原因在于:當前LLMs并不具備真正的邏輯推理能力,它們只是試圖模仿訓練數據中所觀察到的推理過程。”
所以,大模型真的會思考嗎?可能庫克和蘋果的研究人員還在思考這個問題。也許從中可以部分理解為什么蘋果在擁抱大模型方面表現得如此謹慎。
蘋果掌管軟件工程的高級副總裁費德里吉(Craig Federighi)并不太相信人工智能。他對這項技術投入的大量資金表示“猶豫”,并且不認為這是一種“核心能力”。
Mehrdad Farajtabar參與了蘋果上述兩篇論文,這次他不客氣地問道:“這些被稱為“推理模型”的 o1/o3、DeepSeek-R1 和 Claude 3.7 Sonnet,真的在“思考”嗎?還是說,它們只是在用更多的算力來做模式匹配而已?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.