99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

爆冷!字節Seed 在CCPC 決賽只做出一道簽到題,而DeepSeek R1 直接掛零?

0
分享至


作者 | 褚杏娟

最近,第十屆中國大學生程序設計競賽(China Collegiate Programming Contest,CCPC)舉行。 字節 Seed 作為贊助商,攜 Seed-Thinking 非正式參與了最后的比賽。結果卻讓很多人比較意外,Seed-Thinking 只做出了一道簽到題(指專門設計得比較簡單,讓選手“打卡”或“熱身”的題目)。據悉,CCPC final 賽的題目數量在 10~13 題不等,這次題目信息還未公布。


隨后,Seed 的工作人員在知乎上也發布了一些其他模型的參賽結果:

  • Seed-Thinking,1 題(C 題)

  • o3/o4,都是 1 題(G 題)

  • Gemini 2.5 pro,1 題 (C 題)

  • DeepSeek R1,0 題


根據參賽選手的描述,這些難題中,C 題和 G 題相對來說比較偏向于是“簽到題”的。OpenAI、谷歌、DeepSeek 參賽成績也是比較讓人意外的。

“根據之前的 codeforces rating 分數,假如那些大模型是人類選手,應該不止這個成績。”小紅書博主“AI 實話實說”評價道。codeforces rating 是一個人長期參加某在線比賽的平均表現,大家通常會根據這個分數判斷一個人的水平并且對應到某個比賽的表現。

“有可靠消息表明,出題人并沒有專門出題要讓大模型做不出來。”該博主對 AI 前線表示。

“人類不參與任何一道題的思考”

“實際上,從賽前的評估結果看,我個人對這個結果是有一些預期的。出于評估目的,非 XCPC 選手出身的我,在賽前把前幾年的 CCPC-final 差不多全看了一遍,大體對 CCPC-final 的難度有了個預估:挺難的,對我和模型而言都挺難的。”該員工表示。

據其介紹,字節 Seed 團隊的參賽方式是:人類不參與任何一道題的思考,純讓模型自己試。現場的三位參賽人員擔任“駕駛員 + 修理工”的角色。

對于很多人關于“人類選手場上偷摸做題”的擔憂,該員工也表示“這個可能性比較低”,“因為幾位同事雖然現在都是資深的 LLM 工程師,但是算法競賽水平可能還沒到能在本場 CCPC 上砍瓜切菜的程度。同時,這場比賽也沒有明顯的簽到題。另外,模型在 codeforces 上的表現其實已經超過了三位同事不少。”

“至于最終成績,只能說是很悲壯了。賽中的幾個小時,場外的大伙一直不停打地在刷新榜單,可惜直到封榜都沒能看到 model AC 掉任何一題。好在最后場上的同事非常神勇地判斷出了哪道題最簽一點,保住了 Al 的最后一點面子。”該工作人員說道。

此外,該工作人員也表示這次本次比賽題目相較去年會新一些,如果是去年的 CCPC final,模型表現會更好一些。

不過,評論區也有網友指出,“Gemini 2.5 pro 非常變態,只要你把你的 io 和 debug 信息給它,迭代幾次就成功了,我用這個打了好幾次 cf 了,基本上你只要會給提示大部分題都能 AC。測下來人為輔助給一些基本提示的話,AI 能寫出 70% 的題。關鍵在怎么給 AI 提示,AI 的自我糾錯已經非常厲害了。”

“感覺大模型技能樹確實有點不一樣。”字節工作人員還在知乎上提到。

包括 Seed-Thinking 在內,字節 Seed 進行測試的來自四家公司的模型在架構上也有一定的代表性:

  • Seed-Thinking-v1.5 采用 MoE 架構,包含 200B 總參數與 20B 激活參數。研究團隊在強化學習訓練中整合了 STEM 問題、代碼任務、邏輯推理和非推理數據,針對可驗證和不可驗證的問題使用不同的獎勵建模方法。

  • o3 采用“推理專用架構”,專注于解決復雜問題。它擁有 128 層 Transformer,并集成了專門的符號推理引擎,使其在數學處理和邏輯推理方面達到人類水平的精度。o4-mini 基于“效率優化架構”構建,通過量化技術和動態算力分配,將參數量縮減至 o3 的五分之一,同時保持了相近的性能。它在實時任務中處理速度比 o3 提升了 3.2 倍。

  • Gemini 2.5 Pro 建立在原生多模態架構上,支持文本、圖像、音頻及代碼等多源輸入,并支持百萬 Token 上下文窗口,使其能夠處理超大文檔、視頻腳本與完整代碼庫。雖然沒有詳細技術介紹,但其技術突破在于強化學習、思維鏈提示和后訓練。

  • DeepSeek R1 由一個嵌入層、61 個 Transformer 層以及輸出階段的多個預測頭構成,直接將強化學習應用于基礎模型,無需依賴監督微調 (SFT) 作為初始步驟,使模型能夠探索解決復雜問題的思路鏈。

單就在上述模型在 CCPC final 比賽中的表現,不同模型架構并未表現出特別大的差異。

暴露出大模型短板

“這其實說明大模型在做算法題上其實是很有短板的”上述博主說道,“這件事 OpenAI 在他們拿 ioi 金牌的那篇論文沒有說。”

在今年 2 月,OpenAI 發布了關于推理模型在競技編程中應用的研究論文,其中,在 IOI 2024 國際信息學奧林匹克競賽的測試中,o3 拿到了 395.64 分,達成金牌成就。

OpenAI 得出結論是:通過擴展強化學習規模,不依賴特定人工設計的 test-time 策略,是推動 AI 在推理類任務(如競賽編程)中達到最先進水平的一條可靠路徑。

不過,該博主解釋稱,OpenAI 的 o3 可以拿到 **IOI** 金牌,原因是團隊針對算法題進行了專門的 agentic 訓練,即允許模型使用工具(比如 python 解釋器)來運行自己的代碼,觀察代碼的輸出并修改代碼,而字節的這次比賽是非 agentic 的。

算法題都要通過編程解決。有些題的做法非常獨特和需要創意,可能和模型見過以前的任何題目,乃至題目的組合都不一樣。在這種前提下,模型就很難做好,這與人不會解題的原因類似。

另外,該博主指出,比較標準比賽的獎項是衡量大模型能力的有效方式,但在算法題領域用學歷來衡量很不合理。因為厲害的選手都是很小就學,最厲害的選手大概是高中生,而不專門練習的博士生可能打不過小學生。

推理模式表現更好

就在 4 月份,微軟首席軟件工程師 Alex Svetkin,將 Anthropic、DeepSeek、Google、xAI、OpenAI 的 7 個大模型在兩組 LeetCode 算法題上進行了基準測試:一組是廣為人知的“經典”題目;另一組是最新發布的“未見過”題目,目的是看這些打模型解決新型算法問題的能力是否有所提升。具體測試結果如下:


(上:經典題目測試結果;下:“未見過”題目測試結果)

結果表明,所有模型在經典題目上的通過率都非常高。為了節省時間和調用額度,Svetkin 沒有測試表現更強的模型或衍生版本(例如啟用推理能力的 Claude 3.7 Sonnet、DeepSeek R1、Gemini 2.5 Pro 和 OpenAI O1),“因為它們的結果幾乎可以預見”。

在“未見過”的題目上,測試結果在兩個方面表現出了顯著差異:

  1. 對所有模型而言,“未見過”題目的通過率都更低,尤其在中等和困難題上尤為明顯。

  2. 啟用了“推理”或“思考”模式的模型在各個難度級別的題目上表現更好,不過具體的提升幅度因模型而異。

對于經典題目通過率顯著更高的原因,Svetkin 表示這是因為這些題目及其標準解法很可能出現在模型的訓練數據中,模型只需復現已知的正確答案即可。在面對新的中等和困難題目時,人類的通過率也明顯低于在“已知”題集上的表現。這種差異較難量化,它并不一定意味著新題“更難”。

所有啟用了“推理”模式的模型在性能上都明顯優于其基礎版本。最重要的是,其中一些模型已經能夠解決相當比例的中等和困難題目。在所有啟用“推理”模式的模型中,o3-mini 表現最佳。值得指出的是,o3-mini 是專門為解決競賽編程問題而訓練的。

“不過,我不會斷言哪個模型更適合解算法題,因為這高度依賴于 token 預算,同時還要綜合考慮推理延遲與使用成本。”Svetkin 說道。

https://www.zhihu.com/question/1903142349388886822

https://medium.com/%40johnpascualkumar077/in-depth-comparison-of-openais-latest-models-o3-and-o4-mini-features-differences-and-7436681f3957

https://hackernoon.com/testing-llms-on-solving-leetcode-problems-in-2025

聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
北京15歲男孩西山走失已超過40個小時,至今未歸,他到底去了哪里

北京15歲男孩西山走失已超過40個小時,至今未歸,他到底去了哪里

好詞好文
2025-05-20 16:21:48
上海老人地鐵讓座后續:老人身份遭深扒,退休金過萬,官方回應

上海老人地鐵讓座后續:老人身份遭深扒,退休金過萬,官方回應

訪史
2025-05-21 00:01:48
華為折疊屏電腦售價23999元起,影響幾何?

華為折疊屏電腦售價23999元起,影響幾何?

黃海峰
2025-05-20 09:02:57
比亞迪股價盤中突破400元,市值創新高!比亞迪一季度凈利潤登頂A股上市車企榜首

比亞迪股價盤中突破400元,市值創新高!比亞迪一季度凈利潤登頂A股上市車企榜首

每日經濟新聞
2025-05-21 15:09:00
張志坤:已經到喊出“打過海峽去,統一全中國”的時候了

張志坤:已經到喊出“打過海峽去,統一全中國”的時候了

秦安戰略
2025-05-20 18:47:04
洛杉磯周期新希望!全國游泳冠軍賽:12歲小孩姐200蝶刷PB摘金

洛杉磯周期新希望!全國游泳冠軍賽:12歲小孩姐200蝶刷PB摘金

全景體育V
2025-05-21 19:54:43
朱媛媛:要不是被辛柏青先追上,我就嫁給他了,李乃文也是我閨蜜

朱媛媛:要不是被辛柏青先追上,我就嫁給他了,李乃文也是我閨蜜

TVB的四小花
2025-05-21 21:01:33
黃楊鈿甜被扒干凈!官媒怒批調查草率,家庭細節曝光!

黃楊鈿甜被扒干凈!官媒怒批調查草率,家庭細節曝光!

界史
2025-05-20 15:53:37
汪小菲罵S媽聊天記錄曝光,句句在理,大S經紀人最后發聲也公開!

汪小菲罵S媽聊天記錄曝光,句句在理,大S經紀人最后發聲也公開!

古希臘掌管月桂的神
2025-05-21 16:58:45
《暗黑破壞神2》國服官宣!版號到手 敬請期待

《暗黑破壞神2》國服官宣!版號到手 敬請期待

游民星空
2025-05-21 20:17:16
張本智和球拍開膠!和王楚欽一樣,同一裁判,對手都是雨果!

張本智和球拍開膠!和王楚欽一樣,同一裁判,對手都是雨果!

振華觀史
2025-05-21 09:55:22
俄羅斯首次扣押油輪后,愛沙尼亞叫囂要開戰,并稱可動員44萬兵力

俄羅斯首次扣押油輪后,愛沙尼亞叫囂要開戰,并稱可動員44萬兵力

碳基生物關懷組織
2025-05-20 18:14:50
女子從12樓墜落奇跡生還,喊話丈夫:我還沒死,快打120

女子從12樓墜落奇跡生還,喊話丈夫:我還沒死,快打120

魯中晨報
2025-05-21 15:57:15
剛剛傳來大消息,必將改變未來格局

剛剛傳來大消息,必將改變未來格局

和訊網
2025-05-21 15:19:09
我算是看出來了!凡是身高175以上的美女,絕大部分都是東北的!

我算是看出來了!凡是身高175以上的美女,絕大部分都是東北的!

鄉野小珥
2025-05-21 01:30:00
大量個人不良貸款轉讓流拍背后:價格走低,專家稱供需失衡

大量個人不良貸款轉讓流拍背后:價格走低,專家稱供需失衡

南方都市報
2025-05-21 19:27:30
“俾路支斯坦共和國”滅亡記

“俾路支斯坦共和國”滅亡記

老友科普
2025-05-20 17:15:17
出門在外不會忍耐有啥嚴重后果?網友:這年頭吃虧有可能真的是福

出門在外不會忍耐有啥嚴重后果?網友:這年頭吃虧有可能真的是福

娛樂圈人物大賞
2025-05-22 00:15:08
真實的八路軍行軍照片,沒有人擠人,而是有戰術地相隔20米

真實的八路軍行軍照片,沒有人擠人,而是有戰術地相隔20米

尋跡追心
2025-05-20 10:37:06
太陽報:熱刺vs曼聯,將是歐洲足壇最荒誕也是最戲劇性的決賽

太陽報:熱刺vs曼聯,將是歐洲足壇最荒誕也是最戲劇性的決賽

懂球帝
2025-05-21 12:52:11
2025-05-22 02:19:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
856文章數 80關注度
往期回顧 全部

科技要聞

網易直擊IO大會:Gemini接管一切 眼鏡炸場

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

體育要聞

打破三大魔咒!廣廈終于將冠軍帶回浙江

娛樂要聞

中國國家話劇院發訃告:沉痛悼念朱媛媛

財經要聞

年虧百億、裁員自救!“AI四小龍”難了

汽車要聞

價格下調 2025聰明款ID.4 X限時13.99萬起

態度原創

親子
教育
健康
旅游
軍事航空

親子要聞

爸爸又有零花錢啦~

教育要聞

沒有好爹托舉怎么辦

唇皰疹和口腔潰瘍是"同伙"嗎?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

連損3架戰機 美"杜魯門"號航母撤出紅海

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 靖安县| 迁西县| 读书| 儋州市| 重庆市| 邵阳市| 南华县| 区。| 景谷| 丁青县| 永吉县| 泰州市| 眉山市| 广水市| 周口市| 宾阳县| 汉川市| 扶绥县| 祁东县| 漳浦县| 车险| 固原市| 上林县| 南昌市| 平陆县| 塔城市| 广汉市| 江山市| 河北省| 故城县| 晋宁县| 余姚市| 永宁县| 鹤壁市| 手游| 重庆市| 修武县| 昌黎县| 西峡县| 鄂托克旗| 板桥市|