AI編程已經成為生成式AI落地的過程中最熱門的賽道之一,不過,近日一支由國際算法奧賽金牌得主組成的科研團隊發表的論文卻跟AI編程“潑了一盆冷水”。
AI優勢仍停留在“知識密集型”
這支由國際算法奧賽金牌得主組成的科研團隊對目前市面上常見的大模型產品(包括了GPT-4o、DeepSeek R1、Claude 3等20個頂級大模型)進行了測試(點擊閱讀LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?),測試主要內容是:一個由Codeforces、ICPC和IOI這些頂級賽事中的問題組成的LiveCodeBench Pro基準測試,在過程中,這些問題會持續更新,以降低數據污染的可能性,共計設置了584道編程賽題。
他們為每一個問題進行了算法類別的標注,并對模型生成的失敗提交進行了逐行分析。
在難度層級設置上面,團隊采用 Codeforces Elo評級啟發式方法進行難度標注。官方Elo評級≤2000 的問題標記為 “簡單”:世界級選手通常可使用標準教科書技術和觀察在約 15 分鐘內解決;中等層級(2000~3000)包含需要融合兩種或更多成熟算法,并結合非平凡數學推理和觀察的問題;任何評級 > 3000 的問題視為 “難”——這些挑戰通常依賴極復雜、非明顯的推導或演繹飛躍,需要對算法理論的精湛掌握和深厚的數學直覺。超過 99.9% 的參與者無法解決,甚至在實時競賽中最強選手有時也未能解決。
根據該團隊發布的論文顯示,在沒有外部工具的情況下,表現最佳的模型在中等難度問題上的通過率僅為53%,在難題上通過率為0%,而這些領域正是人類專家的強項。
除此之外,他們還發現,LLMs在實現密集型問題上表現出色,但在涉及微妙算法推理和復雜案例分析的問題上卻表現不佳,常常生成看似正確實則錯誤的推理。高性能似乎主要由實現精度和工具增強驅動,而非 superior reasoning(優越的推理能力)。
同時,團隊還對大模型在某些方面的失敗分析了原因,分析表明 LLM 的代碼通常語法更可靠,但在構思正確算法或從問題中提取正確觀察所需的高級推理中掙扎。盡管我們的正式注釋僅涵蓋 o3-mini 的提交,初步人工檢查表明大多數現有 LLM 共享相同的錯誤模式。
該團隊在經過測試之后,得出了四個結論:
- 第一,當前模型在更結構化和知識密集型問題(需要更多邏輯推導而非演繹)中表現出色,但在需要觀察和創造力的觀察密集型問題中表現顯著更差。僅在組合數學、線段樹和動態規劃問題上,o4-mini-high 表現超過大師水平。
- 第二,與人類專家相比,概念錯誤是模型失敗的主要原因。LLM 甚至常在提供的樣例輸入上失敗,表明對給定信息的利用不完整,即使在簡單場景中也有改進空間。
- 第三,推理模型在組合數學和知識密集型問題上,比非推理模型表現出大幅提升,而在觀察密集型問題上的增益有限。
- 第四,盡管通過增加嘗試次數,可以顯著提升模型整體性能,但仍難以解決高難度層級的問題。
雖然測試的結果不盡如人意,但AI編程已經成為科技大廠必爭的市場,也是他們繼續AI故事的重要一環。比如,微軟基于GPT-4模型推出了GitHub Copilot提供代碼補全、生成和錯誤修復功能,支持多種IDE(如VS Code、JetBrains),并新增“智能體”功能,可自主執行開發任務;OpenAI推出了Codex智能體,支持代碼生成和復雜任務處理,與GitHub深度整合;谷歌推出了Gemini 2.5 Pro與JulesAI代理服務;字節跳動推出了集成Claude 3.7和GPT-4o模型的AI原生IDE支持快速原型開發,以及MarsCode一站式開發平臺;美團上線了AI編程工具“NoCode” ........
從目前發展趨勢上看,國內與國際科技公司聚焦的方向不盡相同,國際廠商更為強調智能體和復雜任務處理;國內工具如通義靈碼、Trae等更注重本土化適配和快速開發。
AI編程當下如此之火,也讓一些程序員產生了可能被AI“替代”的焦慮。不過,通過前文提及的團隊測試不難看出,在一些非知識密集型的編程場景下,程序員的價值依舊很大,能力自然也超過AI。所以,雖然AI編程成為熱門賽道,但對于企業而言,一位有經驗,能操作高難度,具備“創造力”的程序員,依舊是企業數字化過程中的中堅力量。
而大模型僅在知識密集型的場景下具備顯著優勢,也不僅僅體現在編程領域。在此前筆者與行業內多名專家的交流中,他們也都向筆者表示了,大模型現在的比較有優勢的場景還是主要集中在知識密集型的場景下。在這些場景下,AI確實能夠幫助企業實現降本增效,不過這種能力距離我們期待的,能夠統籌全局的智能體,還有很大差距。當AI能獨立解決IOI金牌題時,通用人工智能才會真正到來。(本文首發于鈦媒體APP,作者|張申宇,編輯丨蓋虹達)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.