99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI替代程序員?一項最新測試的結果恰恰相反 | 企服國際觀察

0
分享至


AI編程已經成為生成式AI落地的過程中最熱門的賽道之一,不過,近日一支由國際算法奧賽金牌得主組成的科研團隊發表的論文卻跟AI編程“潑了一盆冷水”。

AI優勢仍停留在“知識密集型”

這支由國際算法奧賽金牌得主組成的科研團隊對目前市面上常見的大模型產品(包括了GPT-4o、DeepSeek R1、Claude 3等20個頂級大模型)進行了測試(點擊閱讀LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?),測試主要內容是:一個由Codeforces、ICPC和IOI這些頂級賽事中的問題組成的LiveCodeBench Pro基準測試,在過程中,這些問題會持續更新,以降低數據污染的可能性,共計設置了584道編程賽題。

他們為每一個問題進行了算法類別的標注,并對模型生成的失敗提交進行了逐行分析。

在難度層級設置上面,團隊采用 Codeforces Elo評級啟發式方法進行難度標注。官方Elo評級≤2000 的問題標記為 “簡單”:世界級選手通常可使用標準教科書技術和觀察在約 15 分鐘內解決;中等層級(2000~3000)包含需要融合兩種或更多成熟算法,并結合非平凡數學推理和觀察的問題;任何評級 > 3000 的問題視為 “難”——這些挑戰通常依賴極復雜、非明顯的推導或演繹飛躍,需要對算法理論的精湛掌握和深厚的數學直覺。超過 99.9% 的參與者無法解決,甚至在實時競賽中最強選手有時也未能解決。

根據該團隊發布的論文顯示,在沒有外部工具的情況下,表現最佳的模型在中等難度問題上的通過率僅為53%,在難題上通過率為0%,而這些領域正是人類專家的強項。

除此之外,他們還發現,LLMs在實現密集型問題上表現出色,但在涉及微妙算法推理和復雜案例分析的問題上卻表現不佳,常常生成看似正確實則錯誤的推理。高性能似乎主要由實現精度和工具增強驅動,而非 superior reasoning(優越的推理能力)。

同時,團隊還對大模型在某些方面的失敗分析了原因,分析表明 LLM 的代碼通常語法更可靠,但在構思正確算法或從問題中提取正確觀察所需的高級推理中掙扎。盡管我們的正式注釋僅涵蓋 o3-mini 的提交,初步人工檢查表明大多數現有 LLM 共享相同的錯誤模式。

該團隊在經過測試之后,得出了四個結論:

  • 第一,當前模型在更結構化和知識密集型問題(需要更多邏輯推導而非演繹)中表現出色,但在需要觀察和創造力的觀察密集型問題中表現顯著更差。僅在組合數學、線段樹和動態規劃問題上,o4-mini-high 表現超過大師水平。
  • 第二,與人類專家相比,概念錯誤是模型失敗的主要原因。LLM 甚至常在提供的樣例輸入上失敗,表明對給定信息的利用不完整,即使在簡單場景中也有改進空間。
  • 第三,推理模型在組合數學和知識密集型問題上,比非推理模型表現出大幅提升,而在觀察密集型問題上的增益有限。
  • 第四,盡管通過增加嘗試次數,可以顯著提升模型整體性能,但仍難以解決高難度層級的問題。
AI編程已是“兵家必爭之地”

雖然測試的結果不盡如人意,但AI編程已經成為科技大廠必爭的市場,也是他們繼續AI故事的重要一環。比如,微軟基于GPT-4模型推出了GitHub Copilot提供代碼補全、生成和錯誤修復功能,支持多種IDE(如VS Code、JetBrains),并新增“智能體”功能,可自主執行開發任務;OpenAI推出了Codex智能體,支持代碼生成和復雜任務處理,與GitHub深度整合;谷歌推出了Gemini 2.5 Pro與JulesAI代理服務;字節跳動推出了集成Claude 3.7和GPT-4o模型的AI原生IDE支持快速原型開發,以及MarsCode一站式開發平臺;美團上線了AI編程工具“NoCode” ........

從目前發展趨勢上看,國內與國際科技公司聚焦的方向不盡相同,國際廠商更為強調智能體和復雜任務處理;國內工具如通義靈碼、Trae等更注重本土化適配和快速開發。

AI編程當下如此之火,也讓一些程序員產生了可能被AI“替代”的焦慮。不過,通過前文提及的團隊測試不難看出,在一些非知識密集型的編程場景下,程序員的價值依舊很大,能力自然也超過AI。所以,雖然AI編程成為熱門賽道,但對于企業而言,一位有經驗,能操作高難度,具備“創造力”的程序員,依舊是企業數字化過程中的中堅力量。

而大模型僅在知識密集型的場景下具備顯著優勢,也不僅僅體現在編程領域。在此前筆者與行業內多名專家的交流中,他們也都向筆者表示了,大模型現在的比較有優勢的場景還是主要集中在知識密集型的場景下。在這些場景下,AI確實能夠幫助企業實現降本增效,不過這種能力距離我們期待的,能夠統籌全局的智能體,還有很大差距。當AI能獨立解決IOI金牌題時,通用人工智能才會真正到來。(本文首發于鈦媒體APP,作者|張申宇,編輯丨蓋虹達)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《長安的荔枝》大結局:盡舉國之力運來的鮮荔枝,只有袖兒和錦娘吃到了,皇帝和貴妃咋這么窩囊?

《長安的荔枝》大結局:盡舉國之力運來的鮮荔枝,只有袖兒和錦娘吃到了,皇帝和貴妃咋這么窩囊?

快樂的小青瓦
2025-06-24 09:46:05
熬出頭了!跳水總教練定了,農民出身的全紅嬋,不用再卑微求出路

熬出頭了!跳水總教練定了,農民出身的全紅嬋,不用再卑微求出路

老吳教育課堂
2025-06-24 15:03:40
Here We Go!羅馬諾:32歲博格巴加盟摩納哥,時隔兩年重返賽場!

Here We Go!羅馬諾:32歲博格巴加盟摩納哥,時隔兩年重返賽場!

直播吧
2025-06-25 05:51:09
深圳中介大事件:華僑城成交一套3億的別墅,中介小哥獨吞400個

深圳中介大事件:華僑城成交一套3億的別墅,中介小哥獨吞400個

小人物看盡人間百態
2025-06-23 16:30:14
LV全球唯一“巨輪”造型概念地標亮相,為何選擇落地上海?

LV全球唯一“巨輪”造型概念地標亮相,為何選擇落地上海?

澎湃新聞
2025-06-25 12:00:28
63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

TVB的四小花
2025-06-16 02:57:47
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
一天股價暴漲195%!牛市旗手狂舞,要放開了嗎?

一天股價暴漲195%!牛市旗手狂舞,要放開了嗎?

說財貓
2025-06-25 19:35:57
為什么不直接把貴妃運到嶺南?

為什么不直接把貴妃運到嶺南?

中國新聞周刊
2025-06-24 21:35:38
我最近突然發現:我身邊好多退休后的女人,生活狀態和我驚人相似

我最近突然發現:我身邊好多退休后的女人,生活狀態和我驚人相似

蟬吟槐蕊
2025-06-25 14:58:42
王晶不再隱瞞!曝料17年前“艷照門”內幕,原來陳冠希竟是受害者

王晶不再隱瞞!曝料17年前“艷照門”內幕,原來陳冠希竟是受害者

清游說娛
2025-06-17 09:46:07
記者:西海岸隊奔赴長春時,劉浪舟中途下車含淚與球隊分別

記者:西海岸隊奔赴長春時,劉浪舟中途下車含淚與球隊分別

懂球帝
2025-06-25 14:20:00
韓國瑜再度發表爭議言論,國民黨如若犯渾絕不姑息!

韓國瑜再度發表爭議言論,國民黨如若犯渾絕不姑息!

梁察天下
2025-06-25 19:20:11
這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

中國商報
2025-06-25 13:58:08
財聯社6月25日電,據新華社,伊朗議會25日通過法案,暫停伊朗與國際原子能機構的合作。

財聯社6月25日電,據新華社,伊朗議會25日通過法案,暫停伊朗與國際原子能機構的合作。

財聯社
2025-06-25 15:00:13
2025湖北高考狀元出爐,襄陽五中“再現雙殺”,華師一附顆粒無收

2025湖北高考狀元出爐,襄陽五中“再現雙殺”,華師一附顆粒無收

史書無明
2025-06-25 08:21:41
用農用無人機把人從洪水中吊離救出,操作者:不建議模仿

用農用無人機把人從洪水中吊離救出,操作者:不建議模仿

新京報
2025-06-25 21:20:42
上海太古匯LV“路易號”巨輪刷屏!網友為隔壁星巴克發聲:改成冰山造型和5米高海妖logo可破局

上海太古匯LV“路易號”巨輪刷屏!網友為隔壁星巴克發聲:改成冰山造型和5米高海妖logo可破局

脊梁in上海
2025-06-25 18:25:06
罪惡之源——伊朗伊斯蘭革命衛隊

罪惡之源——伊朗伊斯蘭革命衛隊

史政先鋒
2025-06-23 12:27:51
伊朗宣布戰后重建,特朗普稱東方大國可以繼續購買伊朗石油了

伊朗宣布戰后重建,特朗普稱東方大國可以繼續購買伊朗石油了

曉風說
2025-06-25 10:34:09
2025-06-25 23:04:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
119993文章數 860665關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

歐盟威脅美國:既然你們堅持加征關稅 我們也不客氣了

頭條要聞

歐盟威脅美國:既然你們堅持加征關稅 我們也不客氣了

體育要聞

驚艷世俱杯的39歲少帥,一個另類的巴西人

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

對話王媛:在世界的游樂場,一起龐巴迪

態度原創

本地
藝術
數碼
時尚
公開課

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

小米手環多功能桌搭亮相:機器人造型、黃 / 銀配色 + 亮面設計

古希臘掌管腿細的神!今夏最火的4雙鞋子,拯救短粗腿!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青海省| 江孜县| 涪陵区| 兰考县| 普陀区| 吐鲁番市| 东台市| 凤翔县| 集安市| 丽水市| 泰和县| 确山县| 湖南省| 郴州市| 江北区| 洪泽县| 东乡族自治县| 临泽县| 泾川县| 垦利县| 牡丹江市| 海南省| 莒南县| 沙田区| 永靖县| 宁国市| 开平市| 福贡县| 乌苏市| 临武县| 赞皇县| 丰镇市| 民和| 铜山县| 东乌珠穆沁旗| 灵璧县| 富蕴县| 福州市| 赤水市| 绩溪县| 桂阳县|