99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,OpenAI開源PaperBench,重塑頂級AI Agent評測

0
分享至

今天凌晨1點,OpenAI開源了一個全新的AI Agent評測基準——PaperBench。

這個基準主要考核智能體的搜索、整合、執行等能力,需要對2024年國際機器學習大會上頂尖論文的復現,包括對論文內容的理解、代碼編寫以及實驗執行等方面的能力。

根據OpenAI公布的測試數據顯示,目前知名大模型打造的智能體,還無法戰勝頂級機器學習專業博士。但在輔助學習、了解科研內容方面很有幫助。


開源地址:https://github.com/openai/preparedness/

PaperBench組成介紹

PaperBench的核心是其任務模塊,主要定義了智能體需要完成的具體任務,需要從頭開始復現20篇ICML 2024會議上的Spotlight和Oral兩大類頂級論文,包括理解論文的貢獻,開發代碼庫以及成功執行實驗,以評測智能體從理論到實踐的全方位自動化能力。

為了確保評估的準確性和細致性,PaperBench開發了一套詳細的評分標準,以層次化的樹形結構呈現。使得評分過程能夠深入到每一個細節,從論文的核心貢獻到具體的實驗結果,再到代碼實現和執行要求,每一個環節都有相應的評分節點。

這些評分節點被精心設計為可單獨評分的任務,總數達到了8316個,從而實現了對智能體能力的全面評估。


評分模塊的核心是基于大模型的自動評分系統,它能根據評分標準自動評估智能體的復制嘗試。自動評分系統的引入大幅提高評分效率和可擴展性,使PaperBench能快速評估大量提交。

為驗證自動評分系統的準確性,PaperBench創建了單獨的評分系統基準測試JudgeEval,通過比較自動評分系統的輸出與人類專家的評分結果來評估其性能。這一過程不僅確保自動評分系統的可靠性,也為未來的評分系統改進提供重要參考。

規則模塊確保評估過程的公平性。它規定智能體在執行任務時可以使用的資源,例如允許智能體瀏覽互聯網,但禁止使用論文作者的原始代碼庫或其他在線復制資源。這些規則確保智能體的能力基于其自身的理解和實現,而非依賴現有代碼或資源。


PaperBench還包含一個輕量級評估變體模塊PaperBench Code-Dev,旨在降低評估門檻,使其更適合更廣泛的社區使用。

Code-Dev放寬了一些評測要求,例如,跳過了執行代碼以驗證結果是否復制的步驟,僅對代碼開發進行評估。這一變體雖犧牲了一些評估完整性,但大幅降低了評估成本和復雜性,使更多研究者能參與智能體的評估。

智能體測試環境

每個被測試的智能體在運行Ubuntu 24.04的Docker容器中執行任務,保證了環境的一致性和可重復性,接近真實研究場景的運行環境。

容器可訪問單個A10 GPU,這對于加速機器學習實驗至關重要。同時,容器具備聯網能力,智能體可下載軟件包、訪問在線資源。

為滿足實驗中的多種服務需求,研究人員為智能體提供了HuggingFace和OpenAI API的密鑰,其中OpenAI API預加載了1000美元額度。這確保了智能體在需要使用OpenAI的微調API或從HuggingFace下載數據集時,能夠順利操作。


智能體的本地工作目錄包含論文的PDF和Markdown格式文件、論文附錄以及指令文本文件,為智能體提供了豐富的信息來源和明確的指導。

在智能體設置方面,研究團隊基于Inspect AI的基本智能體開發了SimpleAgent。SimpleAgent運行工具使用循環,配備bash shell命令執行工具、Python代碼執行工具、web瀏覽器工具和分頁文件閱讀器工具,能夠高效完成任務。但是,大多數使用SimpleAgent的智能體存在提前結束任務的問題。

為解決這一問題,OpenAI開發了IterativeAgent通過修改系統提示,要求智能體每次只進行下一步操作,并移除了提交工具,確保在整個可用時間內持續工作。這些改進使IterativeAgent在實驗中表現出與SimpleAgent不同的行為模式,為研究不同智能體設置對模型復制能力的影響提供了新的視角。

評測數據

OpenAI通過該基準對 GPT - 4o、o1、o3 - mini、DeepSeek - R1、Claude 3.5 Sonnet和 Gemini 2.0 Flash主流開閉源模型打造的智能體進行了綜合測試。

每個模型對每篇論文運行3次,每次運行的最長時間為12小時。結果顯示,Claude 3.5 Sonnet效果最好,平均復現分數達到21.0%;o1的得分較低,為13.2%;R1只有6%;其他測試模型的表現更差。

最讓人意外的是,OpenAI剛發布沒多久的o3-Mini-High直接墊底,看來這個評測還是相當客觀的


通過對智能體日志的手動檢查發現,除 Claude 3.5 Sonnet 外,其他模型經常提前結束任務,并且所有模型都未能有效規劃如何在有限時間內完成論文復現任務,o3 - mini 在工具使用方面也存在困難。

這表明智能體在執行長期任務方面存在不足,盡管它們在制定和編寫多步計劃方面有一定能力,但在實際執行長計劃時卻表現不佳。

為了進一步確定智能體和PaperBench的評測準確性,OpenAI還找來了8名頂級名校的機器學習專業博士,需要在與智能體相似的條件下,對 PaperBench中的4篇論文進行復現嘗試,每人對每篇論文進行3次獨立嘗試。


結果顯示,在復現嘗試的早期階段,o1的表現優于人類基線,但在24小時后,人類開始超越o1

這表明模型在開始時能夠快速編寫大量代碼,但在后續有效規劃和改進提交內容方面存在不足,而人類在前期消化論文的時間較多,但后續能夠持續提升復現效果。也就是說,目前智能體的能力還無法超越人類。

本文素材來源OpenAI,如有侵權請聯系刪除

報告下載

大 佬觀點分享

關于RPA、AI、企業數字化轉型

(點擊文字即可閱讀)

| |

| | |

| | |

| | |

| |

行業知識交流分享,結識擴展人脈圈層

公眾號后臺回復【RPA】或者【流程挖掘】

可受邀加入相關的交流群

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
前擊劍運動員秦雪,退役后當主播,近照中,紅色穿搭實在太養眼了

前擊劍運動員秦雪,退役后當主播,近照中,紅色穿搭實在太養眼了

塞外書語
2025-06-22 14:28:35
查爾斯“棘手”了!梅根個人主頁正式更新,王室頭銜成個人簡介~

查爾斯“棘手”了!梅根個人主頁正式更新,王室頭銜成個人簡介~

小嵩
2025-06-23 12:35:47
四位加拿大球員總決賽表現:SGA當選FMVP 內姆哈德馬瑟林得分上雙

四位加拿大球員總決賽表現:SGA當選FMVP 內姆哈德馬瑟林得分上雙

直播吧
2025-06-23 11:45:16
43歲龍哥神了:皇馬3次變招,絕境變狂歡!大師級指揮表演

43歲龍哥神了:皇馬3次變招,絕境變狂歡!大師級指揮表演

葉青足球世界
2025-06-23 05:55:49
上海2025年高考各類別考生成績分布表公布

上海2025年高考各類別考生成績分布表公布

界面新聞
2025-06-23 14:03:43
博主怒斥微信不要臉,盜用自己信用評論朋友圈廣告,微信曾回應:可能用戶評論過,但自己忘了

博主怒斥微信不要臉,盜用自己信用評論朋友圈廣告,微信曾回應:可能用戶評論過,但自己忘了

可達鴨面面觀
2025-06-23 15:24:25
下賽季見,皇馬向三家西甲升班馬送上祝賀

下賽季見,皇馬向三家西甲升班馬送上祝賀

懂球帝
2025-06-23 01:02:30
汪峰否認和寧靜戀愛第2天,惡心的一幕出現了,章子怡舉止太大氣

汪峰否認和寧靜戀愛第2天,惡心的一幕出現了,章子怡舉止太大氣

古希臘掌管月桂的神
2025-06-23 09:21:56
媒體:詹姆斯讓人誤以為每年都進總決賽很容易!

媒體:詹姆斯讓人誤以為每年都進總決賽很容易!

氧氣是個地鐵
2025-06-23 15:29:13
遠在歐洲的匈牙利,渾身透著中國“味兒”,怎么回事?

遠在歐洲的匈牙利,渾身透著中國“味兒”,怎么回事?

大道微言
2025-06-20 21:16:36
正式下場!美國終于邁出了結束霸權的最關鍵也是最愚蠢的一步!

正式下場!美國終于邁出了結束霸權的最關鍵也是最愚蠢的一步!

智觀科技
2025-06-22 22:33:20
昧著良心張口正義!張維為在俄羅斯評伊以沖突,網友喊其別回來了

昧著良心張口正義!張維為在俄羅斯評伊以沖突,網友喊其別回來了

昨夜軍帖
2025-06-21 15:42:32
知名演員,突發意外 !

知名演員,突發意外 !

業翔民安
2025-06-22 12:56:04
男子二十萬買三手寶馬,發現比配重高50斤,后備箱發現夾層后懵了

男子二十萬買三手寶馬,發現比配重高50斤,后備箱發現夾層后懵了

程哥講堂
2025-06-20 18:55:10
直線拉升,20%漲停!這一賽道,爆發!

直線拉升,20%漲停!這一賽道,爆發!

新浪財經
2025-06-23 12:41:00
湖人舊將卡魯索奪第2冠:總決賽4場上雙+2場20分 湖管后悔嗎

湖人舊將卡魯索奪第2冠:總決賽4場上雙+2場20分 湖管后悔嗎

醉臥浮生
2025-06-23 10:50:16
許小年教授,為何被網友罵慘了?

許小年教授,為何被網友罵慘了?

老蔣談策劃
2025-06-23 12:12:19
65歲老頭包養26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

65歲老頭包養26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

胖胖侃咖
2025-06-23 08:00:07
女籃最荒唐一幕!為了晉級8強竟拒絕“贏球”:放棄兩次絕殺機會

女籃最荒唐一幕!為了晉級8強竟拒絕“贏球”:放棄兩次絕殺機會

籃球快餐車
2025-06-23 03:21:54
37歲王思聰在日本和女友吃咖喱,下頜后縮嚴重,像動畫片里的樹懶

37歲王思聰在日本和女友吃咖喱,下頜后縮嚴重,像動畫片里的樹懶

大笑江湖史
2025-06-21 18:02:40
2025-06-23 17:00:49
RPA中國 incentive-icons
RPA中國
RPA行業生態平臺
2695文章數 1247關注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經要聞

關稅重磅!美國宣布,今起加征

汽車要聞

單電機200kW 奔馳純電長軸距CLA申報信息曝光

態度原創

健康
教育
親子
房產
手機

呼吸科專家破解呼吸道九大謠言!

教育要聞

上海2025年本科錄取分數線公布!402分!

親子要聞

兒童防曬霜亂象調查:部分無兒童化妝品標志,宣稱“0歲可用”

房產要聞

3天,75億!海南賣地殺瘋了!

手機要聞

榮耀 Magic V5 真機外觀曝光,7 月 2 日發布

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 赤城县| 酒泉市| 罗城| 崇信县| 奈曼旗| 保亭| 阿拉善右旗| 历史| 荆门市| 左贡县| 平安县| 揭阳市| 襄垣县| 九江县| 合作市| 曲麻莱县| 岢岚县| 通化市| 集贤县| 安泽县| 阳高县| 锡林郭勒盟| 交口县| 镇康县| 梓潼县| 屯昌县| 台东市| 永登县| 巴中市| 靖西县| 招远市| 尤溪县| 衡水市| 车致| 曲松县| 昌邑市| 温泉县| 周宁县| 定襄县| 钟祥市| 新平|