斯坦福團(tuán)隊(duì)打造開源基準(zhǔn)庫，模型科研編程能力一測便知

2025-06-16 20:07:13　來源: DeepTech深科技

北京舉報(bào)

分享至

“在一次長談中，導(dǎo)師向我描繪了未來科研的場景：將來科學(xué)家只需拋出假設(shè)，背后成百上千個(gè) AI Agents 會在幾分鐘內(nèi)設(shè)計(jì)并完成實(shí)驗(yàn)。要想抵達(dá)那個(gè)未來，首先得有一把可靠的‘尺子’去衡量大模型能否把一個(gè)研究想法成功轉(zhuǎn)化為實(shí)驗(yàn)代碼，而這便是我們做 Benchmark——ResearchCodeBench的初衷。”近日，美國斯坦福大學(xué)博士生華天羽告訴 DeepTech。

圖 | 華天羽（來源：華天羽）

在這項(xiàng)研究中，華天羽等人先是打造了一個(gè)開源基準(zhǔn)庫，其中包含 20 篇最新論文和 212 道代碼題，每道題都附有可跑的測試。跑完一套，立刻可知道模型在真正的“科研級編程”場景下到底有“幾斤幾兩”。

其次，他們收獲了兩個(gè)實(shí)驗(yàn)發(fā)現(xiàn)。第一個(gè)發(fā)現(xiàn)是 SOTA 也難以及格，期間研究團(tuán)隊(duì)測試了 32 個(gè)大模型，最好成績（Gemini-2.5‐Pro-Preview）也只通過 37.3% 的可執(zhí)行行數(shù)，OpenAI O3（High）通過了 32.3% 的可執(zhí)行行數(shù)，Claude 3.5 Sonnet 則更低。由此可見，讓模型學(xué)會“讀論文”很有必要：當(dāng)將論文全文給到模型，它的通過率能夠顯著提升；當(dāng)拿走論文、只提供代碼上下文的時(shí)候，模型性能普遍下滑。第二個(gè)發(fā)現(xiàn)是他們繪制出了一份錯(cuò)誤分布畫像，即近六成模型做科研編程的失敗原因是由于“語義/邏輯錯(cuò)誤”，而語法錯(cuò)誤和命名類錯(cuò)誤已不再是主要瓶頸。

就應(yīng)用前景來說：

首先，可作為模型迭代的“驗(yàn)收標(biāo)準(zhǔn)”：大模型公司可以把 ResearchCodeBench 當(dāng)作回歸測試，查看新版本大模型在科研場景到底有沒有真正取得進(jìn)步。

其次，可作為科研助手的對標(biāo)基線：未來如果有人做“自動(dòng)復(fù)現(xiàn)論文”的 AI Agent，就能拿 ResearchCodeBench 做公開橫評。

最后，可以延伸到跨學(xué)科：由于本次框架是通用的，因此后續(xù)可以加入生物、材料、量化金融等領(lǐng)域代碼，成為更全面的“科學(xué)編程測評池”。

（來源：arXiv）

談及研究背景，華天羽表示過去兩年大家都在談“AI?+?科研”，但是可落地的量化評測一直缺位。已有的代碼類基準(zhǔn)比如 HumanEval、MBPP 等更像是編程題庫，它們測試的是常見算法。而科學(xué)研究的痛點(diǎn)是“實(shí)現(xiàn)沒見過的新想法”，這就需要大模型一邊讀論文、一邊寫出能跑通的實(shí)驗(yàn)代碼。因此，研究團(tuán)隊(duì)想知道“大模型到底能不能真正幫科研人員把最新論文里的點(diǎn)子寫成可執(zhí)行的代碼”。

于是，研究團(tuán)隊(duì)提出了 ResearchCodeBench——把 20 篇 2024 年至 2025 年的頂會論文和預(yù)印本論文拆成 212 個(gè)“填空式”代碼挑戰(zhàn)，并配上單元測試。這樣做的目的只有一個(gè)：衡量大模型在真正“前沿場景”中的編程實(shí)力，而非僅僅只是背代碼。基于此，他們開展了本次研究。

（來源：arXiv）

據(jù)介紹，本次課題立項(xiàng)于 2024 年盛夏。當(dāng)時(shí)，華天羽剛加入目前所在的課題組。不過，彼時(shí)他并不理解導(dǎo)師拋出的“代碼生成”命題。如前所述，他后來聽到了導(dǎo)師向他描繪的未來科研場景，于是便理解了這一命題。

2024 年初秋，課題進(jìn)入需求拆解與打造技術(shù)路線的階段。由于資源有限，華天羽自己訓(xùn)練頂級模型根本不現(xiàn)實(shí)，于是他和所在團(tuán)隊(duì)把重點(diǎn)放在“考題”本身，

據(jù)了解，此次研究只選用 2024 年之后的新論文，以便確保模型在接受預(yù)訓(xùn)練時(shí)沒有見過這些內(nèi)容。同時(shí)，還得確保每道題都必須能夠執(zhí)行和能夠自動(dòng)判分，而且評測一定要快，確保普通筆記本在幾秒內(nèi)就能給出結(jié)果。

2024 年深秋至初冬，華天羽開始進(jìn)行指標(biāo)實(shí)驗(yàn)。期間，他和所在團(tuán)隊(duì)嘗試了編輯距離、代碼向量距離、大模型評分等五六種度量方式，最后發(fā)現(xiàn)最可靠的方式居然是最笨的方式——即把模型生成的代碼塞回原項(xiàng)目，通過跑單項(xiàng)測試來查看結(jié)果。為了“偷懶”，他花費(fèi)了三個(gè)月時(shí)間“搗鼓”，目的就是想讓大模型自動(dòng)寫這些測試，然而最終卻以失敗告終。“確實(shí)，在那個(gè)時(shí)候，復(fù)雜的科研代碼的測試用例還必須人工編寫。”華天羽表示。

隨后，他開始進(jìn)行數(shù)據(jù)落地，從 20 篇頂會論文和arXiv預(yù)印本論文中進(jìn)行“抽核心實(shí)現(xiàn)”和“埋 XML 標(biāo)簽”等操作，然后手寫了 212 份單元測試。“找外包是不行的，因?yàn)橐炊芯考墑e的代碼的門檻太高，只能我和同門硬啃。”他說。其中，最大的挑戰(zhàn)便是“剪枝”：要讓每道題既能反映論文亮點(diǎn)，又不牽出一大堆依賴鏈。

完成數(shù)據(jù)落地之后，開始進(jìn)入大模型統(tǒng)測階段。期間，華天羽連續(xù)兩個(gè)月和 32 個(gè)長上下文模型較勁，面對不同 API 的上下文限制、速率限制和沙盒依賴，都要逐一地打補(bǔ)丁。最終，他得出了首批分?jǐn)?shù)，盡管最好的分?jǐn)?shù)也只過了僅僅不到 40 % 的行數(shù)，但這已經(jīng)足夠?yàn)榭蒲猩鐓^(qū)拉出清晰的基線。

然后，他開始整理實(shí)驗(yàn)、補(bǔ)做污染分析，并寫好了腳本和網(wǎng)頁表單，實(shí)現(xiàn)了讓任何人都能“一鍵提交論文、一鍵跑分”。

（來源：arXiv）

事實(shí)上，期間他曾因?yàn)閷で髱椭蚤]門羹。為了尋找合作伙伴協(xié)助標(biāo)注，他和所在團(tuán)隊(duì)逐一發(fā)郵件聯(lián)系，但是大約一半的郵件都沒有收到回復(fù)。“這逼得我快速改進(jìn)溝通方式，把郵件主題精簡成一句話、正文先提供具體技術(shù)反饋，然后再說明合作需求，于是回信率明顯提升。”他表示。通過此，他不僅獲得了所需要的幫助，也練出了更主動(dòng)、更直接的溝通習(xí)慣。

另據(jù)悉，Benchmark 最初叫 Paper2Code，上線之前他發(fā)現(xiàn)領(lǐng)域內(nèi)已經(jīng)有同名項(xiàng)目。于是，整個(gè)團(tuán)隊(duì)商量著緊急“改名”，列出數(shù)十個(gè)候選之后逐一進(jìn)行查重和討論，最終他們采用了 ResearchCodeBench 這一命名，該命名不僅含義清晰、不撞名，而且縮寫比較好記。

在后續(xù)計(jì)劃上：首先，他將進(jìn)行半自動(dòng)生成測試，現(xiàn)在大模型的代碼能力肉眼可見地提升，因?yàn)樗麑⒃谙乱话嬷袊L試“模型 A 寫單測、模型 B 審核、人類抽樣”，把新增題目的人力成本壓到數(shù)分鐘以內(nèi)。其次，他將進(jìn)行跨學(xué)科擴(kuò)容，計(jì)劃在 2025 年之內(nèi)再引入至少 40 篇生物、材料、量化金融等領(lǐng)域的新論文，讓基準(zhǔn)覆蓋更廣。再次，他將開展 Agent-style 評測，即從“一次性填空”升級到“多輪 run-debug-refine”，以便更加貼近真實(shí)的科研工作流。另外，他將設(shè)置人類基線，通過邀請博士后和高級工程師在子集上手寫實(shí)現(xiàn)，記錄耗時(shí)與正確率，給出“人類上限”對照。最后，他將致力于實(shí)時(shí) Live-Bench，即在每個(gè)月度里進(jìn)行新論文抓取，只要時(shí)間戳晚于主流模型的訓(xùn)練截止，就自動(dòng)進(jìn)“新手村”子集，確保始終測試新題目，防止模型背答案。

據(jù)介紹，華天羽本科學(xué)習(xí)于中國地質(zhì)大學(xué)（北京）。畢業(yè)時(shí)正逢疫情爆發(fā)，隨后在上海期智研究院工作了一年。之后，華天羽前往英屬哥倫比亞大學(xué)攻讀碩士。讀博時(shí)，他更希望與“人好、氛圍好”的導(dǎo)師長期合作。美國斯坦福大學(xué) CS 系第一年需輪轉(zhuǎn)，可以到不同實(shí)驗(yàn)室體驗(yàn)。最終，華天羽選擇了現(xiàn)在的課題組，雖已不再專注于自己原先熟悉的計(jì)算機(jī)視覺方向，但導(dǎo)師的口碑和科研文化讓華天羽決定留下。比如，課題組之前做過一些 human cognition inspired AI 的研究，再比如課題組在三年前就有同學(xué)在做推理機(jī)制（reasoning）研究，而華天羽對這些帶有人文味道的科研項(xiàng)目很感興趣。

據(jù)了解，他對于 AI 與人類認(rèn)知的興趣可以追溯到高中：當(dāng)時(shí)填報(bào)志愿時(shí)，華天羽直接問“哪個(gè)專業(yè)以后能做 AI？”，于是選擇了計(jì)算機(jī)。正好趕上深度學(xué)習(xí)崛起，雖然那時(shí)中文互聯(lián)網(wǎng)每年都在討論“算法崗秋招有多難”，但是華天羽仍然一路靠做 AI 研究“吃飯”走到今天。目前，他正在讀博士二年級，預(yù)計(jì)還有很多“AI 之山”等著這名無錫男孩去攀登。

參考資料：

Benchmark: https://researchcodebench.github.io

Paper: https://arxiv.org/abs/2506.02314

Code: https://github.com/PatrickHua/ResearchCodeBench

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.