99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福團(tuán)隊(duì)打造開源基準(zhǔn)庫,模型科研編程能力一測便知

0
分享至

“在一次長談中,導(dǎo)師向我描繪了未來科研的場景:將來科學(xué)家只需拋出假設(shè),背后成百上千個(gè) AI Agents 會在幾分鐘內(nèi)設(shè)計(jì)并完成實(shí)驗(yàn)。要想抵達(dá)那個(gè)未來,首先得有一把可靠的‘尺子’去衡量大模型能否把一個(gè)研究想法成功轉(zhuǎn)化為實(shí)驗(yàn)代碼,而這便是我們做 Benchmark——ResearchCodeBench的初衷。”近日,美國斯坦福大學(xué)博士生華天羽告訴 DeepTech。


圖 | 華天羽(來源:華天羽)

在這項(xiàng)研究中,華天羽等人先是打造了一個(gè)開源基準(zhǔn)庫,其中包含 20 篇最新論文和 212 道代碼題,每道題都附有可跑的測試。跑完一套,立刻可知道模型在真正的“科研級編程”場景下到底有“幾斤幾兩”。

其次,他們收獲了兩個(gè)實(shí)驗(yàn)發(fā)現(xiàn)。第一個(gè)發(fā)現(xiàn)是 SOTA 也難以及格,期間研究團(tuán)隊(duì)測試了 32 個(gè)大模型,最好成績(Gemini-2.5‐Pro-Preview)也只通過 37.3% 的可執(zhí)行行數(shù),OpenAI O3(High)通過了 32.3% 的可執(zhí)行行數(shù),Claude 3.5 Sonnet 則更低。由此可見,讓模型學(xué)會“讀論文”很有必要:當(dāng)將論文全文給到模型,它的通過率能夠顯著提升;當(dāng)拿走論文、只提供代碼上下文的時(shí)候,模型性能普遍下滑。第二個(gè)發(fā)現(xiàn)是他們繪制出了一份錯(cuò)誤分布畫像,即近六成模型做科研編程的失敗原因是由于“語義/邏輯錯(cuò)誤”,而語法錯(cuò)誤和命名類錯(cuò)誤已不再是主要瓶頸。

就應(yīng)用前景來說:

首先,可作為模型迭代的“驗(yàn)收標(biāo)準(zhǔn)”:大模型公司可以把 ResearchCodeBench 當(dāng)作回歸測試,查看新版本大模型在科研場景到底有沒有真正取得進(jìn)步。

其次,可作為科研助手的對標(biāo)基線:未來如果有人做“自動(dòng)復(fù)現(xiàn)論文”的 AI Agent,就能拿 ResearchCodeBench 做公開橫評。

最后,可以延伸到跨學(xué)科:由于本次框架是通用的,因此后續(xù)可以加入生物、材料、量化金融等領(lǐng)域代碼,成為更全面的“科學(xué)編程測評池”。


(來源:arXiv)

談及研究背景,華天羽表示過去兩年大家都在談“AI?+?科研”,但是可落地的量化評測一直缺位。已有的代碼類基準(zhǔn)比如 HumanEval、MBPP 等更像是編程題庫,它們測試的是常見算法。而科學(xué)研究的痛點(diǎn)是“實(shí)現(xiàn)沒見過的新想法”,這就需要大模型一邊讀論文、一邊寫出能跑通的實(shí)驗(yàn)代碼。因此,研究團(tuán)隊(duì)想知道“大模型到底能不能真正幫科研人員把最新論文里的點(diǎn)子寫成可執(zhí)行的代碼”。

于是,研究團(tuán)隊(duì)提出了 ResearchCodeBench——把 20 篇 2024 年至 2025 年的頂會論文和預(yù)印本論文拆成 212 個(gè)“填空式”代碼挑戰(zhàn),并配上單元測試。這樣做的目的只有一個(gè):衡量大模型在真正“前沿場景”中的編程實(shí)力,而非僅僅只是背代碼。基于此,他們開展了本次研究。


(來源:arXiv)

據(jù)介紹,本次課題立項(xiàng)于 2024 年盛夏。當(dāng)時(shí),華天羽剛加入目前所在的課題組。不過,彼時(shí)他并不理解導(dǎo)師拋出的“代碼生成”命題。如前所述,他后來聽到了導(dǎo)師向他描繪的未來科研場景,于是便理解了這一命題。

2024 年初秋,課題進(jìn)入需求拆解與打造技術(shù)路線的階段。由于資源有限,華天羽自己訓(xùn)練頂級模型根本不現(xiàn)實(shí),于是他和所在團(tuán)隊(duì)把重點(diǎn)放在“考題”本身,

據(jù)了解,此次研究只選用 2024 年之后的新論文,以便確保模型在接受預(yù)訓(xùn)練時(shí)沒有見過這些內(nèi)容。同時(shí),還得確保每道題都必須能夠執(zhí)行和能夠自動(dòng)判分,而且評測一定要快,確保普通筆記本在幾秒內(nèi)就能給出結(jié)果。

2024 年深秋至初冬,華天羽開始進(jìn)行指標(biāo)實(shí)驗(yàn)。期間,他和所在團(tuán)隊(duì)嘗試了編輯距離、代碼向量距離、大模型評分等五六種度量方式,最后發(fā)現(xiàn)最可靠的方式居然是最笨的方式——即把模型生成的代碼塞回原項(xiàng)目,通過跑單項(xiàng)測試來查看結(jié)果。為了“偷懶”,他花費(fèi)了三個(gè)月時(shí)間“搗鼓”,目的就是想讓大模型自動(dòng)寫這些測試,然而最終卻以失敗告終。“確實(shí),在那個(gè)時(shí)候,復(fù)雜的科研代碼的測試用例還必須人工編寫。”華天羽表示。

隨后,他開始進(jìn)行數(shù)據(jù)落地,從 20 篇頂會論文和arXiv預(yù)印本論文中進(jìn)行“抽核心實(shí)現(xiàn)”和“埋 XML 標(biāo)簽”等操作,然后手寫了 212 份單元測試。“找外包是不行的,因?yàn)橐炊芯考墑e的代碼的門檻太高,只能我和同門硬啃。”他說。其中,最大的挑戰(zhàn)便是“剪枝”:要讓每道題既能反映論文亮點(diǎn),又不牽出一大堆依賴鏈。

完成數(shù)據(jù)落地之后,開始進(jìn)入大模型統(tǒng)測階段。期間,華天羽連續(xù)兩個(gè)月和 32 個(gè)長上下文模型較勁,面對不同 API 的上下文限制、速率限制和沙盒依賴,都要逐一地打補(bǔ)丁。最終,他得出了首批分?jǐn)?shù),盡管最好的分?jǐn)?shù)也只過了僅僅不到 40 % 的行數(shù),但這已經(jīng)足夠?yàn)榭蒲猩鐓^(qū)拉出清晰的基線。

然后,他開始整理實(shí)驗(yàn)、補(bǔ)做污染分析,并寫好了腳本和網(wǎng)頁表單,實(shí)現(xiàn)了讓任何人都能“一鍵提交論文、一鍵跑分”。


(來源:arXiv)

事實(shí)上,期間他曾因?yàn)閷で髱椭蚤]門羹。為了尋找合作伙伴協(xié)助標(biāo)注,他和所在團(tuán)隊(duì)逐一發(fā)郵件聯(lián)系,但是大約一半的郵件都沒有收到回復(fù)。“這逼得我快速改進(jìn)溝通方式,把郵件主題精簡成一句話、正文先提供具體技術(shù)反饋,然后再說明合作需求,于是回信率明顯提升。”他表示。通過此,他不僅獲得了所需要的幫助,也練出了更主動(dòng)、更直接的溝通習(xí)慣。

另據(jù)悉,Benchmark 最初叫 Paper2Code,上線之前他發(fā)現(xiàn)領(lǐng)域內(nèi)已經(jīng)有同名項(xiàng)目。于是,整個(gè)團(tuán)隊(duì)商量著緊急“改名”,列出數(shù)十個(gè)候選之后逐一進(jìn)行查重和討論,最終他們采用了 ResearchCodeBench 這一命名,該命名不僅含義清晰、不撞名,而且縮寫比較好記。

在后續(xù)計(jì)劃上:首先,他將進(jìn)行半自動(dòng)生成測試,現(xiàn)在大模型的代碼能力肉眼可見地提升,因?yàn)樗麑⒃谙乱话嬷袊L試“模型 A 寫單測、模型 B 審核、人類抽樣”,把新增題目的人力成本壓到數(shù)分鐘以內(nèi)。其次,他將進(jìn)行跨學(xué)科擴(kuò)容,計(jì)劃在 2025 年之內(nèi)再引入至少 40 篇生物、材料、量化金融等領(lǐng)域的新論文,讓基準(zhǔn)覆蓋更廣。再次,他將開展 Agent-style 評測,即從“一次性填空”升級到“多輪 run-debug-refine”,以便更加貼近真實(shí)的科研工作流。另外,他將設(shè)置人類基線,通過邀請博士后和高級工程師在子集上手寫實(shí)現(xiàn),記錄耗時(shí)與正確率,給出“人類上限”對照。最后,他將致力于實(shí)時(shí) Live-Bench,即在每個(gè)月度里進(jìn)行新論文抓取,只要時(shí)間戳晚于主流模型的訓(xùn)練截止,就自動(dòng)進(jìn)“新手村”子集,確保始終測試新題目,防止模型背答案。

據(jù)介紹,華天羽本科學(xué)習(xí)于中國地質(zhì)大學(xué)(北京)。畢業(yè)時(shí)正逢疫情爆發(fā),隨后在上海期智研究院工作了一年。之后,華天羽前往英屬哥倫比亞大學(xué)攻讀碩士。讀博時(shí),他更希望與“人好、氛圍好”的導(dǎo)師長期合作。美國斯坦福大學(xué) CS 系第一年需輪轉(zhuǎn),可以到不同實(shí)驗(yàn)室體驗(yàn)。最終,華天羽選擇了現(xiàn)在的課題組,雖已不再專注于自己原先熟悉的計(jì)算機(jī)視覺方向,但導(dǎo)師的口碑和科研文化讓華天羽決定留下。比如,課題組之前做過一些 human cognition inspired AI 的研究,再比如課題組在三年前就有同學(xué)在做推理機(jī)制(reasoning)研究,而華天羽對這些帶有人文味道的科研項(xiàng)目很感興趣。

據(jù)了解,他對于 AI 與人類認(rèn)知的興趣可以追溯到高中:當(dāng)時(shí)填報(bào)志愿時(shí),華天羽直接問“哪個(gè)專業(yè)以后能做 AI?”,于是選擇了計(jì)算機(jī)。正好趕上深度學(xué)習(xí)崛起,雖然那時(shí)中文互聯(lián)網(wǎng)每年都在討論“算法崗秋招有多難”,但是華天羽仍然一路靠做 AI 研究“吃飯”走到今天。目前,他正在讀博士二年級,預(yù)計(jì)還有很多“AI 之山”等著這名無錫男孩去攀登。

參考資料:

Benchmark: https://researchcodebench.github.io

Paper: https://arxiv.org/abs/2506.02314

Code: https://github.com/PatrickHua/ResearchCodeBench

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄軍持續(xù)使用化學(xué)武器,謊言遭戳破,烏軍州界防線固若金湯

俄軍持續(xù)使用化學(xué)武器,謊言遭戳破,烏軍州界防線固若金湯

史政先鋒
2025-06-16 16:37:39
河南73歲老人被蜱蟲叮咬感染去世 家屬:以為感冒,耽擱了治療

河南73歲老人被蜱蟲叮咬感染去世 家屬:以為感冒,耽擱了治療

封面新聞
2025-06-16 16:23:13
江青罕見的9張彩色老照片:年輕時(shí)氣質(zhì)出眾,大多數(shù)人沒見過圖1

江青罕見的9張彩色老照片:年輕時(shí)氣質(zhì)出眾,大多數(shù)人沒見過圖1

詩意世界
2025-05-13 21:57:12
清華女碩士從27樓跳下,父親整理遺物時(shí)發(fā)現(xiàn)真相,崩潰大哭

清華女碩士從27樓跳下,父親整理遺物時(shí)發(fā)現(xiàn)真相,崩潰大哭

一個(gè)人講故事
2023-12-18 19:56:46
CCTV5直播!中國男籃亞洲杯,五天四場比賽,郭士強(qiáng)力爭小組第一

CCTV5直播!中國男籃亞洲杯,五天四場比賽,郭士強(qiáng)力爭小組第一

籃球大陸
2025-06-16 10:09:35
陜西一男子收養(yǎng)17歲女兒,女孩兩年連生兩胎,禽獸在人間

陜西一男子收養(yǎng)17歲女兒,女孩兩年連生兩胎,禽獸在人間

罪案洞察者
2025-02-15 15:29:12
河南女子醉駕超速追尾撞死一家三口案已被公訴,遇害者家屬:車主明知她醉酒仍給車鑰匙

河南女子醉駕超速追尾撞死一家三口案已被公訴,遇害者家屬:車主明知她醉酒仍給車鑰匙

瀟湘晨報(bào)
2025-06-16 11:26:14
俄外交部:美方取消俄美雙邊磋商下一輪會談

俄外交部:美方取消俄美雙邊磋商下一輪會談

新京報(bào)
2025-06-16 21:58:07
女子查出無法生育,主動(dòng)退還38w彩禮,男方:不許退,我們只要你

女子查出無法生育,主動(dòng)退還38w彩禮,男方:不許退,我們只要你

夸夸專欄
2025-06-15 16:49:16
以色列女兵為何總穿緊身褲?人人網(wǎng)紅,堪比大片!

以色列女兵為何總穿緊身褲?人人網(wǎng)紅,堪比大片!

健身迷
2025-05-12 09:58:09
升級版“禁酒令”來襲,煙酒店的日子更難過了

升級版“禁酒令”來襲,煙酒店的日子更難過了

金融圈小大佬
2025-06-16 22:47:17
佩通坦:泰方不接受任何威脅!

佩通坦:泰方不接受任何威脅!

占豪
2025-06-17 02:08:31
皇馬放棄梅西接班人?皇馬不愿回購800萬天才,2個(gè)關(guān)鍵原因曝光

皇馬放棄梅西接班人?皇馬不愿回購800萬天才,2個(gè)關(guān)鍵原因曝光

貝塔說體育
2025-06-16 14:55:41
性價(jià)比最高的空調(diào)“神機(jī)”!全新才1117元,一級能效超省電

性價(jià)比最高的空調(diào)“神機(jī)”!全新才1117元,一級能效超省電

金科技觀察家
2025-06-16 18:59:17
深夜11點(diǎn),NBA首筆大交易達(dá)成!7換1!擾亂市場,太陽隊(duì)要賺翻了

深夜11點(diǎn),NBA首筆大交易達(dá)成!7換1!擾亂市場,太陽隊(duì)要賺翻了

只為不凡的你
2025-06-16 08:07:52
又開始了?蕭山不少網(wǎng)友日入數(shù)百元!有人坐不住了

又開始了?蕭山不少網(wǎng)友日入數(shù)百元!有人坐不住了

蕭內(nèi)網(wǎng)
2025-06-16 21:45:10
成品油價(jià)或現(xiàn)今年最大漲幅

成品油價(jià)或現(xiàn)今年最大漲幅

第一財(cái)經(jīng)資訊
2025-06-16 15:15:48
真相大白!李夢發(fā)文告別今年亞洲杯,宮魯鳴公開回應(yīng),道出原因!

真相大白!李夢發(fā)文告別今年亞洲杯,宮魯鳴公開回應(yīng),道出原因!

野渡舟山人
2025-06-17 03:11:18
意媒:意大利高層對新帥選擇分化嚴(yán)重,布馮極力拒絕曼奇尼

意媒:意大利高層對新帥選擇分化嚴(yán)重,布馮極力拒絕曼奇尼

雷速體育
2025-06-17 00:11:23
未來一周,貴人相助,4屬相機(jī)遇多多,橫財(cái)大旺,生活越來越美好!

未來一周,貴人相助,4屬相機(jī)遇多多,橫財(cái)大旺,生活越來越美好!

素然追光
2025-06-16 00:22:00
2025-06-17 05:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
15302文章數(shù) 513784關(guān)注度
往期回顧 全部

科技要聞

雷軍:?戒O1芯片還要再做5年、10年

頭條要聞

以總理稱行動(dòng)不會停止 伊朗:已準(zhǔn)備長期全面戰(zhàn)爭

頭條要聞

以總理稱行動(dòng)不會停止 伊朗:已準(zhǔn)備長期全面戰(zhàn)爭

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財(cái)經(jīng)要聞

618國補(bǔ)貼錢反漲價(jià) 美的深陷價(jià)格魔術(shù)漩渦

汽車要聞

榮威M7 DMH外觀官圖發(fā)布 預(yù)計(jì)將于下半年正式上市

態(tài)度原創(chuàng)

教育
本地
旅游
健康
軍事航空

教育要聞

真正的好成績,從敢提問開始

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場小技巧

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

軍事要聞

俄羅斯暫停駐伊朗領(lǐng)事工作 宣布從伊朗撤僑

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 棋牌| 永顺县| 禹城市| 罗山县| 廉江市| 厦门市| 威宁| 平江县| 若羌县| 伊金霍洛旗| 五台县| 巢湖市| 六盘水市| 称多县| 栖霞市| 雷州市| 万载县| 赤壁市| 道孚县| 广州市| 邵武市| 金坛市| 乌拉特前旗| 亳州市| 台中市| 宜兰市| 西林县| 沙坪坝区| 湖南省| 通河县| 铁岭县| 元朗区| 富平县| 潮安县| 二手房| 大竹县| 广丰县| 米脂县| 岳阳市| 板桥市| 漳浦县|