“在一次長談中,導(dǎo)師向我描繪了未來科研的場景:將來科學(xué)家只需拋出假設(shè),背后成百上千個(gè) AI Agents 會在幾分鐘內(nèi)設(shè)計(jì)并完成實(shí)驗(yàn)。要想抵達(dá)那個(gè)未來,首先得有一把可靠的‘尺子’去衡量大模型能否把一個(gè)研究想法成功轉(zhuǎn)化為實(shí)驗(yàn)代碼,而這便是我們做 Benchmark——ResearchCodeBench的初衷。”近日,美國斯坦福大學(xué)博士生華天羽告訴 DeepTech。
圖 | 華天羽(來源:華天羽)
在這項(xiàng)研究中,華天羽等人先是打造了一個(gè)開源基準(zhǔn)庫,其中包含 20 篇最新論文和 212 道代碼題,每道題都附有可跑的測試。跑完一套,立刻可知道模型在真正的“科研級編程”場景下到底有“幾斤幾兩”。
其次,他們收獲了兩個(gè)實(shí)驗(yàn)發(fā)現(xiàn)。第一個(gè)發(fā)現(xiàn)是 SOTA 也難以及格,期間研究團(tuán)隊(duì)測試了 32 個(gè)大模型,最好成績(Gemini-2.5‐Pro-Preview)也只通過 37.3% 的可執(zhí)行行數(shù),OpenAI O3(High)通過了 32.3% 的可執(zhí)行行數(shù),Claude 3.5 Sonnet 則更低。由此可見,讓模型學(xué)會“讀論文”很有必要:當(dāng)將論文全文給到模型,它的通過率能夠顯著提升;當(dāng)拿走論文、只提供代碼上下文的時(shí)候,模型性能普遍下滑。第二個(gè)發(fā)現(xiàn)是他們繪制出了一份錯(cuò)誤分布畫像,即近六成模型做科研編程的失敗原因是由于“語義/邏輯錯(cuò)誤”,而語法錯(cuò)誤和命名類錯(cuò)誤已不再是主要瓶頸。
就應(yīng)用前景來說:
首先,可作為模型迭代的“驗(yàn)收標(biāo)準(zhǔn)”:大模型公司可以把 ResearchCodeBench 當(dāng)作回歸測試,查看新版本大模型在科研場景到底有沒有真正取得進(jìn)步。
其次,可作為科研助手的對標(biāo)基線:未來如果有人做“自動(dòng)復(fù)現(xiàn)論文”的 AI Agent,就能拿 ResearchCodeBench 做公開橫評。
最后,可以延伸到跨學(xué)科:由于本次框架是通用的,因此后續(xù)可以加入生物、材料、量化金融等領(lǐng)域代碼,成為更全面的“科學(xué)編程測評池”。
(來源:arXiv)
談及研究背景,華天羽表示過去兩年大家都在談“AI?+?科研”,但是可落地的量化評測一直缺位。已有的代碼類基準(zhǔn)比如 HumanEval、MBPP 等更像是編程題庫,它們測試的是常見算法。而科學(xué)研究的痛點(diǎn)是“實(shí)現(xiàn)沒見過的新想法”,這就需要大模型一邊讀論文、一邊寫出能跑通的實(shí)驗(yàn)代碼。因此,研究團(tuán)隊(duì)想知道“大模型到底能不能真正幫科研人員把最新論文里的點(diǎn)子寫成可執(zhí)行的代碼”。
于是,研究團(tuán)隊(duì)提出了 ResearchCodeBench——把 20 篇 2024 年至 2025 年的頂會論文和預(yù)印本論文拆成 212 個(gè)“填空式”代碼挑戰(zhàn),并配上單元測試。這樣做的目的只有一個(gè):衡量大模型在真正“前沿場景”中的編程實(shí)力,而非僅僅只是背代碼。基于此,他們開展了本次研究。
(來源:arXiv)
據(jù)介紹,本次課題立項(xiàng)于 2024 年盛夏。當(dāng)時(shí),華天羽剛加入目前所在的課題組。不過,彼時(shí)他并不理解導(dǎo)師拋出的“代碼生成”命題。如前所述,他后來聽到了導(dǎo)師向他描繪的未來科研場景,于是便理解了這一命題。
2024 年初秋,課題進(jìn)入需求拆解與打造技術(shù)路線的階段。由于資源有限,華天羽自己訓(xùn)練頂級模型根本不現(xiàn)實(shí),于是他和所在團(tuán)隊(duì)把重點(diǎn)放在“考題”本身,
據(jù)了解,此次研究只選用 2024 年之后的新論文,以便確保模型在接受預(yù)訓(xùn)練時(shí)沒有見過這些內(nèi)容。同時(shí),還得確保每道題都必須能夠執(zhí)行和能夠自動(dòng)判分,而且評測一定要快,確保普通筆記本在幾秒內(nèi)就能給出結(jié)果。
2024 年深秋至初冬,華天羽開始進(jìn)行指標(biāo)實(shí)驗(yàn)。期間,他和所在團(tuán)隊(duì)嘗試了編輯距離、代碼向量距離、大模型評分等五六種度量方式,最后發(fā)現(xiàn)最可靠的方式居然是最笨的方式——即把模型生成的代碼塞回原項(xiàng)目,通過跑單項(xiàng)測試來查看結(jié)果。為了“偷懶”,他花費(fèi)了三個(gè)月時(shí)間“搗鼓”,目的就是想讓大模型自動(dòng)寫這些測試,然而最終卻以失敗告終。“確實(shí),在那個(gè)時(shí)候,復(fù)雜的科研代碼的測試用例還必須人工編寫。”華天羽表示。
隨后,他開始進(jìn)行數(shù)據(jù)落地,從 20 篇頂會論文和arXiv預(yù)印本論文中進(jìn)行“抽核心實(shí)現(xiàn)”和“埋 XML 標(biāo)簽”等操作,然后手寫了 212 份單元測試。“找外包是不行的,因?yàn)橐炊芯考墑e的代碼的門檻太高,只能我和同門硬啃。”他說。其中,最大的挑戰(zhàn)便是“剪枝”:要讓每道題既能反映論文亮點(diǎn),又不牽出一大堆依賴鏈。
完成數(shù)據(jù)落地之后,開始進(jìn)入大模型統(tǒng)測階段。期間,華天羽連續(xù)兩個(gè)月和 32 個(gè)長上下文模型較勁,面對不同 API 的上下文限制、速率限制和沙盒依賴,都要逐一地打補(bǔ)丁。最終,他得出了首批分?jǐn)?shù),盡管最好的分?jǐn)?shù)也只過了僅僅不到 40 % 的行數(shù),但這已經(jīng)足夠?yàn)榭蒲猩鐓^(qū)拉出清晰的基線。
然后,他開始整理實(shí)驗(yàn)、補(bǔ)做污染分析,并寫好了腳本和網(wǎng)頁表單,實(shí)現(xiàn)了讓任何人都能“一鍵提交論文、一鍵跑分”。
(來源:arXiv)
事實(shí)上,期間他曾因?yàn)閷で髱椭蚤]門羹。為了尋找合作伙伴協(xié)助標(biāo)注,他和所在團(tuán)隊(duì)逐一發(fā)郵件聯(lián)系,但是大約一半的郵件都沒有收到回復(fù)。“這逼得我快速改進(jìn)溝通方式,把郵件主題精簡成一句話、正文先提供具體技術(shù)反饋,然后再說明合作需求,于是回信率明顯提升。”他表示。通過此,他不僅獲得了所需要的幫助,也練出了更主動(dòng)、更直接的溝通習(xí)慣。
另據(jù)悉,Benchmark 最初叫 Paper2Code,上線之前他發(fā)現(xiàn)領(lǐng)域內(nèi)已經(jīng)有同名項(xiàng)目。于是,整個(gè)團(tuán)隊(duì)商量著緊急“改名”,列出數(shù)十個(gè)候選之后逐一進(jìn)行查重和討論,最終他們采用了 ResearchCodeBench 這一命名,該命名不僅含義清晰、不撞名,而且縮寫比較好記。
在后續(xù)計(jì)劃上:首先,他將進(jìn)行半自動(dòng)生成測試,現(xiàn)在大模型的代碼能力肉眼可見地提升,因?yàn)樗麑⒃谙乱话嬷袊L試“模型 A 寫單測、模型 B 審核、人類抽樣”,把新增題目的人力成本壓到數(shù)分鐘以內(nèi)。其次,他將進(jìn)行跨學(xué)科擴(kuò)容,計(jì)劃在 2025 年之內(nèi)再引入至少 40 篇生物、材料、量化金融等領(lǐng)域的新論文,讓基準(zhǔn)覆蓋更廣。再次,他將開展 Agent-style 評測,即從“一次性填空”升級到“多輪 run-debug-refine”,以便更加貼近真實(shí)的科研工作流。另外,他將設(shè)置人類基線,通過邀請博士后和高級工程師在子集上手寫實(shí)現(xiàn),記錄耗時(shí)與正確率,給出“人類上限”對照。最后,他將致力于實(shí)時(shí) Live-Bench,即在每個(gè)月度里進(jìn)行新論文抓取,只要時(shí)間戳晚于主流模型的訓(xùn)練截止,就自動(dòng)進(jìn)“新手村”子集,確保始終測試新題目,防止模型背答案。
據(jù)介紹,華天羽本科學(xué)習(xí)于中國地質(zhì)大學(xué)(北京)。畢業(yè)時(shí)正逢疫情爆發(fā),隨后在上海期智研究院工作了一年。之后,華天羽前往英屬哥倫比亞大學(xué)攻讀碩士。讀博時(shí),他更希望與“人好、氛圍好”的導(dǎo)師長期合作。美國斯坦福大學(xué) CS 系第一年需輪轉(zhuǎn),可以到不同實(shí)驗(yàn)室體驗(yàn)。最終,華天羽選擇了現(xiàn)在的課題組,雖已不再專注于自己原先熟悉的計(jì)算機(jī)視覺方向,但導(dǎo)師的口碑和科研文化讓華天羽決定留下。比如,課題組之前做過一些 human cognition inspired AI 的研究,再比如課題組在三年前就有同學(xué)在做推理機(jī)制(reasoning)研究,而華天羽對這些帶有人文味道的科研項(xiàng)目很感興趣。
據(jù)了解,他對于 AI 與人類認(rèn)知的興趣可以追溯到高中:當(dāng)時(shí)填報(bào)志愿時(shí),華天羽直接問“哪個(gè)專業(yè)以后能做 AI?”,于是選擇了計(jì)算機(jī)。正好趕上深度學(xué)習(xí)崛起,雖然那時(shí)中文互聯(lián)網(wǎng)每年都在討論“算法崗秋招有多難”,但是華天羽仍然一路靠做 AI 研究“吃飯”走到今天。目前,他正在讀博士二年級,預(yù)計(jì)還有很多“AI 之山”等著這名無錫男孩去攀登。
參考資料:
Benchmark: https://researchcodebench.github.io
Paper: https://arxiv.org/abs/2506.02314
Code: https://github.com/PatrickHua/ResearchCodeBench
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.