99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

爆冷!字節(jié)Seed 在CCPC 決賽只做出一道簽到題,而DeepSeek R1 直接掛零?

0
分享至


作者 | 褚杏娟

最近,第十屆中國大學(xué)生程序設(shè)計競賽(China Collegiate Programming Contest,CCPC)舉行。 字節(jié) Seed 作為贊助商,攜 Seed-Thinking 非正式參與了最后的比賽。結(jié)果卻讓很多人比較意外,Seed-Thinking 只做出了一道簽到題(指專門設(shè)計得比較簡單,讓選手“打卡”或“熱身”的題目)。據(jù)悉,CCPC final 賽的題目數(shù)量在 10~13 題不等,這次題目信息還未公布。


隨后,Seed 的工作人員在知乎上也發(fā)布了一些其他模型的參賽結(jié)果:

  • Seed-Thinking,1 題(C 題)

  • o3/o4,都是 1 題(G 題)

  • Gemini 2.5 pro,1 題 (C 題)

  • DeepSeek R1,0 題


根據(jù)參賽選手的描述,這些難題中,C 題和 G 題相對來說比較偏向于是“簽到題”的。OpenAI、谷歌、DeepSeek 參賽成績也是比較讓人意外的。

“根據(jù)之前的 codeforces rating 分數(shù),假如那些大模型是人類選手,應(yīng)該不止這個成績。”小紅書博主“AI 實話實說”評價道。codeforces rating 是一個人長期參加某在線比賽的平均表現(xiàn),大家通常會根據(jù)這個分數(shù)判斷一個人的水平并且對應(yīng)到某個比賽的表現(xiàn)。

“有可靠消息表明,出題人并沒有專門出題要讓大模型做不出來。”該博主對 AI 前線表示。

“人類不參與任何一道題的思考”

“實際上,從賽前的評估結(jié)果看,我個人對這個結(jié)果是有一些預(yù)期的。出于評估目的,非 XCPC 選手出身的我,在賽前把前幾年的 CCPC-final 差不多全看了一遍,大體對 CCPC-final 的難度有了個預(yù)估:挺難的,對我和模型而言都挺難的。”該員工表示。

據(jù)其介紹,字節(jié) Seed 團隊的參賽方式是:人類不參與任何一道題的思考,純讓模型自己試。現(xiàn)場的三位參賽人員擔(dān)任“駕駛員 + 修理工”的角色。

對于很多人關(guān)于“人類選手場上偷摸做題”的擔(dān)憂,該員工也表示“這個可能性比較低”,“因為幾位同事雖然現(xiàn)在都是資深的 LLM 工程師,但是算法競賽水平可能還沒到能在本場 CCPC 上砍瓜切菜的程度。同時,這場比賽也沒有明顯的簽到題。另外,模型在 codeforces 上的表現(xiàn)其實已經(jīng)超過了三位同事不少。”

“至于最終成績,只能說是很悲壯了。賽中的幾個小時,場外的大伙一直不停打地在刷新榜單,可惜直到封榜都沒能看到 model AC 掉任何一題。好在最后場上的同事非常神勇地判斷出了哪道題最簽一點,保住了 Al 的最后一點面子。”該工作人員說道。

此外,該工作人員也表示這次本次比賽題目相較去年會新一些,如果是去年的 CCPC final,模型表現(xiàn)會更好一些。

不過,評論區(qū)也有網(wǎng)友指出,“Gemini 2.5 pro 非常變態(tài),只要你把你的 io 和 debug 信息給它,迭代幾次就成功了,我用這個打了好幾次 cf 了,基本上你只要會給提示大部分題都能 AC。測下來人為輔助給一些基本提示的話,AI 能寫出 70% 的題。關(guān)鍵在怎么給 AI 提示,AI 的自我糾錯已經(jīng)非常厲害了。”

“感覺大模型技能樹確實有點不一樣。”字節(jié)工作人員還在知乎上提到。

包括 Seed-Thinking 在內(nèi),字節(jié) Seed 進行測試的來自四家公司的模型在架構(gòu)上也有一定的代表性:

  • Seed-Thinking-v1.5 采用 MoE 架構(gòu),包含 200B 總參數(shù)與 20B 激活參數(shù)。研究團隊在強化學(xué)習(xí)訓(xùn)練中整合了 STEM 問題、代碼任務(wù)、邏輯推理和非推理數(shù)據(jù),針對可驗證和不可驗證的問題使用不同的獎勵建模方法。

  • o3 采用“推理專用架構(gòu)”,專注于解決復(fù)雜問題。它擁有 128 層 Transformer,并集成了專門的符號推理引擎,使其在數(shù)學(xué)處理和邏輯推理方面達到人類水平的精度。o4-mini 基于“效率優(yōu)化架構(gòu)”構(gòu)建,通過量化技術(shù)和動態(tài)算力分配,將參數(shù)量縮減至 o3 的五分之一,同時保持了相近的性能。它在實時任務(wù)中處理速度比 o3 提升了 3.2 倍。

  • Gemini 2.5 Pro 建立在原生多模態(tài)架構(gòu)上,支持文本、圖像、音頻及代碼等多源輸入,并支持百萬 Token 上下文窗口,使其能夠處理超大文檔、視頻腳本與完整代碼庫。雖然沒有詳細技術(shù)介紹,但其技術(shù)突破在于強化學(xué)習(xí)、思維鏈提示和后訓(xùn)練。

  • DeepSeek R1 由一個嵌入層、61 個 Transformer 層以及輸出階段的多個預(yù)測頭構(gòu)成,直接將強化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型,無需依賴監(jiān)督微調(diào) (SFT) 作為初始步驟,使模型能夠探索解決復(fù)雜問題的思路鏈。

單就在上述模型在 CCPC final 比賽中的表現(xiàn),不同模型架構(gòu)并未表現(xiàn)出特別大的差異。

暴露出大模型短板

“這其實說明大模型在做算法題上其實是很有短板的”上述博主說道,“這件事 OpenAI 在他們拿 ioi 金牌的那篇論文沒有說。”

在今年 2 月,OpenAI 發(fā)布了關(guān)于推理模型在競技編程中應(yīng)用的研究論文,其中,在 IOI 2024 國際信息學(xué)奧林匹克競賽的測試中,o3 拿到了 395.64 分,達成金牌成就。

OpenAI 得出結(jié)論是:通過擴展強化學(xué)習(xí)規(guī)模,不依賴特定人工設(shè)計的 test-time 策略,是推動 AI 在推理類任務(wù)(如競賽編程)中達到最先進水平的一條可靠路徑。

不過,該博主解釋稱,OpenAI 的 o3 可以拿到IOI金牌,原因是團隊針對算法題進行了專門的 agentic 訓(xùn)練,即允許模型使用工具(比如 python 解釋器)來運行自己的代碼,觀察代碼的輸出并修改代碼,而字節(jié)的這次比賽是非 agentic 的。

算法題都要通過編程解決。有些題的做法非常獨特和需要創(chuàng)意,可能和模型見過以前的任何題目,乃至題目的組合都不一樣。在這種前提下,模型就很難做好,這與人不會解題的原因類似。

另外,該博主指出,比較標準比賽的獎項是衡量大模型能力的有效方式,但在算法題領(lǐng)域用學(xué)歷來衡量很不合理。因為厲害的選手都是很小就學(xué),最厲害的選手大概是高中生,而不專門練習(xí)的博士生可能打不過小學(xué)生。

推理模式表現(xiàn)更好

就在 4 月份,微軟首席軟件工程師 Alex Svetkin,將 Anthropic、DeepSeek、Google、xAI、OpenAI 的 7 個大模型在兩組 LeetCode 算法題上進行了基準測試:一組是廣為人知的“經(jīng)典”題目;另一組是最新發(fā)布的“未見過”題目,目的是看這些打模型解決新型算法問題的能力是否有所提升。具體測試結(jié)果如下:


(上:經(jīng)典題目測試結(jié)果;下:“未見過”題目測試結(jié)果)

結(jié)果表明,所有模型在經(jīng)典題目上的通過率都非常高。為了節(jié)省時間和調(diào)用額度,Svetkin 沒有測試表現(xiàn)更強的模型或衍生版本(例如啟用推理能力的 Claude 3.7 Sonnet、DeepSeek R1、Gemini 2.5 Pro 和 OpenAI O1),“因為它們的結(jié)果幾乎可以預(yù)見”。

在“未見過”的題目上,測試結(jié)果在兩個方面表現(xiàn)出了顯著差異:

  1. 對所有模型而言,“未見過”題目的通過率都更低,尤其在中等和困難題上尤為明顯。

  2. 啟用了“推理”或“思考”模式的模型在各個難度級別的題目上表現(xiàn)更好,不過具體的提升幅度因模型而異。

對于經(jīng)典題目通過率顯著更高的原因,Svetkin 表示這是因為這些題目及其標準解法很可能出現(xiàn)在模型的訓(xùn)練數(shù)據(jù)中,模型只需復(fù)現(xiàn)已知的正確答案即可。在面對新的中等和困難題目時,人類的通過率也明顯低于在“已知”題集上的表現(xiàn)。這種差異較難量化,它并不一定意味著新題“更難”。

所有啟用了“推理”模式的模型在性能上都明顯優(yōu)于其基礎(chǔ)版本。最重要的是,其中一些模型已經(jīng)能夠解決相當(dāng)比例的中等和困難題目。在所有啟用“推理”模式的模型中,o3-mini 表現(xiàn)最佳。值得指出的是,o3-mini 是專門為解決競賽編程問題而訓(xùn)練的。

“不過,我不會斷言哪個模型更適合解算法題,因為這高度依賴于 token 預(yù)算,同時還要綜合考慮推理延遲與使用成本。”Svetkin 說道。

https://www.zhihu.com/question/1903142349388886822

https://medium.com/%40johnpascualkumar077/in-depth-comparison-of-openais-latest-models-o3-and-o4-mini-features-differences-and-7436681f3957

https://hackernoon.com/testing-llms-on-solving-leetcode-problems-in-2025

聲明:本文由 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯(lián)動,全覽 AI 技術(shù)前沿和行業(yè)落地。大會聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計和出海策略等話題。即刻掃碼購票,一同探索 AI 應(yīng)用邊界!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
俄羅斯的報復(fù)來了

俄羅斯的報復(fù)來了

那山星火
2025-06-02 09:46:42
八旬老人花105萬買基金虧了30萬,狀告銀行,法院判了!案涉產(chǎn)品曾為博時旗下百億爆款基金

八旬老人花105萬買基金虧了30萬,狀告銀行,法院判了!案涉產(chǎn)品曾為博時旗下百億爆款基金

紅星新聞
2025-06-01 16:53:24
李在明口出豪言,尹錫悅和他硅膠娃娃的麻煩大了!

李在明口出豪言,尹錫悅和他硅膠娃娃的麻煩大了!

妮妮玩不夠
2025-06-02 08:59:31
三大利空,突襲!

三大利空,突襲!

證券時報
2025-06-02 13:18:04
司馬夾頭又摔了,這次摔了個狗吃屎

司馬夾頭又摔了,這次摔了個狗吃屎

金召點評
2025-06-02 10:32:52
法網(wǎng)1/4決賽:鄭欽文VS薩巴倫卡,比賽時間公布,贏球有多少獎金

法網(wǎng)1/4決賽:鄭欽文VS薩巴倫卡,比賽時間公布,贏球有多少獎金

體育大學(xué)僧
2025-06-02 09:18:00
中國代表就在臺下,美防長30分鐘問責(zé)中國,話音剛落,解放軍出動

中國代表就在臺下,美防長30分鐘問責(zé)中國,話音剛落,解放軍出動

獵火照狼山
2025-06-01 21:17:15
俄民眾徒手掰斷烏軍自爆無人機旋翼,跳上卡車阻止無人機飛出

俄民眾徒手掰斷烏軍自爆無人機旋翼,跳上卡車阻止無人機飛出

大象新聞
2025-06-02 12:35:52
再戰(zhàn)鄭欽文!薩巴倫卡:是的我想要復(fù)仇,此前在羅馬時我非常疲憊

再戰(zhàn)鄭欽文!薩巴倫卡:是的我想要復(fù)仇,此前在羅馬時我非常疲憊

直播吧
2025-06-02 08:31:49
太難了!網(wǎng)傳河源一超市8個月的工資沒發(fā),多名員工聚集超市討薪

太難了!網(wǎng)傳河源一超市8個月的工資沒發(fā),多名員工聚集超市討薪

火山詩話
2025-06-02 11:26:31
本周要簽字,特朗普要全面反華,為了防這一刻,中國籌備了十年!

本周要簽字,特朗普要全面反華,為了防這一刻,中國籌備了十年!

科技有趣事
2025-06-02 10:37:36
一覺醒來天塌了!國務(wù)院2025年放假安排四個月都沒有法定節(jié)假日了

一覺醒來天塌了!國務(wù)院2025年放假安排四個月都沒有法定節(jié)假日了

春序娛樂
2025-06-02 08:28:33
雷軍昨天刪掉的微博,風(fēng)險有多大?

雷軍昨天刪掉的微博,風(fēng)險有多大?

智遠同學(xué)
2025-06-02 11:57:01
太可惜!網(wǎng)傳駐馬店一地600萬的克拉斯780發(fā)生自燃,20分鐘全燒毀

太可惜!網(wǎng)傳駐馬店一地600萬的克拉斯780發(fā)生自燃,20分鐘全燒毀

火山詩話
2025-06-02 10:42:49
中央通報宿松縣千嶺鄉(xiāng)干部違規(guī)吃喝問題,安徽省委表態(tài)

中央通報宿松縣千嶺鄉(xiāng)干部違規(guī)吃喝問題,安徽省委表態(tài)

上觀新聞
2025-06-02 06:56:16
舍不得多買氧氣罐離世的河南卡友已下葬,三年前結(jié)發(fā)妻子離世,留下重組家庭的6個孩子

舍不得多買氧氣罐離世的河南卡友已下葬,三年前結(jié)發(fā)妻子離世,留下重組家庭的6個孩子

極目新聞
2025-06-02 00:15:37
59.4%大學(xué)生不想生孩子!最新官方報告揭示年輕人婚育觀巨變

59.4%大學(xué)生不想生孩子!最新官方報告揭示年輕人婚育觀巨變

金融界
2025-05-30 14:57:43
正式退出,雨果發(fā)聲,官宣決定,名記回應(yīng),國乒計劃或打亂

正式退出,雨果發(fā)聲,官宣決定,名記回應(yīng),國乒計劃或打亂

樂聊球
2025-06-02 11:34:37
美國宣布暫停中國留學(xué)生簽證,紐約時報:中國幾乎沒有任何籌碼。

美國宣布暫停中國留學(xué)生簽證,紐約時報:中國幾乎沒有任何籌碼。

百態(tài)人間
2025-06-02 11:58:19
機票價格“跳水” 突現(xiàn)1.1折!網(wǎng)友:抓緊時間抄底

機票價格“跳水” 突現(xiàn)1.1折!網(wǎng)友:抓緊時間抄底

環(huán)球網(wǎng)資訊
2025-06-02 14:38:03
2025-06-02 15:39:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11142文章數(shù) 51279關(guān)注度
往期回顧 全部

科技要聞

新造車5月再洗牌:問界回前三,小米守第五

頭條要聞

美財長放話:美國永不會債務(wù)違約 我們不會公布"X日"

頭條要聞

美財長放話:美國永不會債務(wù)違約 我們不會公布"X日"

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

章子怡深夜曬娃,兒女正面照曝光

財經(jīng)要聞

三大利空,突襲!

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態(tài)度原創(chuàng)

房產(chǎn)
親子
數(shù)碼
公開課
軍事航空

房產(chǎn)要聞

金地華南落子海南自貿(mào)港22萬㎡標桿項目,夯實代建行業(yè)領(lǐng)軍者地位

親子要聞

媽媽和孩子之間的聯(lián)系遠遠比我們想象的要深

數(shù)碼要聞

機械革命筆記本新模具曝光,提供藍白撞色設(shè)計

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中國記者拿著美菲勾結(jié)證據(jù)對質(zhì) 菲律賓防長當(dāng)場急了

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 新化县| 晋中市| 门头沟区| 桦甸市| 邓州市| 肥乡县| 洞口县| 德令哈市| 惠东县| 甘南县| 三门峡市| 芷江| 云阳县| 邹城市| 丰镇市| 鄂州市| 龙岩市| 阳朔县| 壤塘县| 宜川县| 阿尔山市| 利川市| 万源市| 牟定县| 板桥市| 霍邱县| 黄石市| 哈尔滨市| 无为县| 合肥市| 营口市| 永济市| 平泉县| 太保市| 旬邑县| 三原县| 商丘市| 通许县| 新野县| 象山县| 衢州市|