99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

北大伯克利聯手“拷問”大模型:最強Agent也才40分!

0
分享至

北大鄧小鐵課題組 投稿
量子位 | 公眾號 QbitAI

給大模型當老師,讓它一步步按你的想法做數據分析,有多難?

結果是,連Claude-3.7和Gemini-2.5 Pro這樣的頂尖選手,都開始“不聽話”了。

在一個全新的測試基準中,它們面對多輪、不斷演進的指令,最終的任務成功率最高僅有40%。

這項名為IDA-Bench的新基準,就是為了模擬真實世界中這種“邊想邊改”的分析場景而生。



它不再是給模型一道題,讓它一口氣算完;而是模擬一位真實的數據分析師,在對話中不斷給出新指令,考察Agent在多輪交互中的真實能力。

可以說,專治各種“自作主張”和“一意孤行”的AI。

值得一提的是,這項工作由一支星光熠熠的團隊打造,匯集了北京大學加州大學伯克利分校的頂尖學者,其中不乏機器學習泰斗Michael I. Jordan教授,仿真科學領域專家鄭澤宇 (Zeyu Zheng)副教授,以及ACM/IEEE Fellow鄧小鐵 (Xiaotie Deng)教授的身影。

“不聽話”的AI,問題出在哪?

目前,我們看到的很多大模型數據分析工具,比如OpenAI、Gemini和Claude的網頁應用,能力已然非常強大。

但現有的評估基準,大多側重于單輪互動:用戶給出一個明確的、預設好的任務,然后看Agent能否成功執行。
可現實世界的數據分析,遠非如此。

真實的數據分析師,工作流程是迭代式探索性的。他們會先查看數據分布,再決定如何處理異常值;會根據初步結果,調整后續的分析策略。這些決策充滿了基于領域知識的“主觀性”,指令也是一步步演進的。

現有基準恰恰忽略了這種動態交互過程,因此無法全面評估Agent在真實協作場景下的可靠性。

IDA-Bench:給AI一場真實的“隨堂測驗”

為了解決這一痛點,IDA-Bench應運而生。它旨在忠實地反映真實數據分析的主觀性和交互性特征。

整個測試框架包含四大核心組件:

  • 指令材料 (Instruction Materials):從真實的、復雜的Kaggle數據分析項目(Python notebooks)中提取,包含背景知識、分析目標和專家的“主觀洞察”。
  • 模擬用戶 (Simulated User):由一個大模型扮演,它會參照指令材料,像真人一樣逐步向Agent下達指令,甚至會提出模糊或不斷變化的要求。
  • Agent:即被測試的大模型,它的任務是嚴格遵循“用戶”的指令,通過編寫和執行代碼來完成任務。
  • 沙盒環境 (Sandbox Environment):一個安全隔離的環境,Agent可以在其中執行代碼、訪問數據,并像在Jupyter中一樣保持上下文。



△圖1:(左) IDA-Bench的測試場景 ,(右) IDA-Bench中的任務軌跡示例

為了確保任務的真實性和時效性,防止數據污染,IDA-Bench的構建流程完全自動化。它能持續從Kaggle上發布的最新項目中提取任務,經過篩選、預處理和人工檢查后,生成新的測試用例。



△圖2: IDA-Bench的自動化構建流程

Agent慘遭滑鐵盧,最高分僅40

在這樣一套“嚴刑拷打”下,各大模型紛紛現出原形。

初步評估結果顯示,即便是最先進的大模型,成功率也不足50%。

具體來看,Gemini-2.5-Pro、OpenAI o4-mini和Claude-3.7-Sonnet-Thinking表現位列第一梯隊,但其“基準達成率”(即結果達到或超過人類基準)也僅為40%。

而DeepSeek系列中,作為指令模型的DeepSeek-V3(24%)表現明顯優于其“思考型”模型DeepSeek-R1(12%),這揭示了一個核心挑戰:在遵循指令和自主推理之間取得平衡,對當前Agent來說非常困難。



△表1: 各大模型在IDA-Bench上的表現

此外,Agent們在任務中還會犯下各種低級錯誤,導致提交結果無效。其中最主要的原因是根本沒有生成提交文件,這往往源于模型的“幻覺”。



“自信”的Claude vs “謹慎”的Gemini

深入分析失敗案例,研究團隊發現不同模型展現出了迥異的“性格”。

Claude-3.7DeepSeek-R1表現得像個“過度自信”的實習生。

它們不怎么遵循用戶的具體指令,而是主動推進分析流程,結果常常因為“自作主張”而錯過了關鍵步驟和信息。比如,用戶建議用一種新方法改進模型,Claude-3.7不等嘗試就直接否定,并提交了之前效果較差的結果。

相比之下,Gemini-2.5-Pro則像一個“過度謹慎”的助理。它每走一步都要反復向用戶尋求確認,有時一個簡單的數據清洗操作能來回溝通30輪,最終因超過回合數限制而任務失敗。

  • 幻覺或夸大:許多Agent會聲稱執行了并未進行的操作,比如號稱“優化”了參數,但實際只是隨機設置;更有甚者,憑空捏造從未生成的代碼和不存在的數字結果。
  • 格式錯誤:提交文件的列名大小寫弄反,或數據類型不對(如在二分類任務中,要求提交標簽“0”或“1”,模型卻提交了標簽為“1”的概率),都是常見的低級錯誤。
  • 固守首次嘗試:一些Agent在初期會做出一個簡單粗暴的嘗試(比如在預測任務中,模型在初期會直接用訓練集的中位數作為預測值),然后就“固執己見”,在后續交互中不再根據新指令開發更復雜的模型。
  • 級聯錯誤:當一個代碼塊中途執行失敗時,Agent有時會“假裝”它成功了,導致后續代碼塊因為引用不存在的變量而出錯,引發連鎖反應。

這些發現凸顯了當前LLM Agent在真正成為可靠數據分析助手之前,仍需在理解、遵循和交互能力上進行大量改進。

論文鏈接:
https://arxiv.org/abs/2505.18223

項目主頁:
https://github.com/lhydave/IDA-Bench

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中共中央批準:陳杰任上海市委常委

中共中央批準:陳杰任上海市委常委

新京報
2025-06-13 22:16:45
2.26米張子宇首秀12分鐘18+7:身旁韓旭顯嬌小 名嘴高贊勢不可擋

2.26米張子宇首秀12分鐘18+7:身旁韓旭顯嬌小 名嘴高贊勢不可擋

顏小白的籃球夢
2025-06-13 21:45:59
伊朗被打無人敢管,中國罕見帶頭表態,以色列這次已闖下大禍

伊朗被打無人敢管,中國罕見帶頭表態,以色列這次已闖下大禍

溫度歷史
2025-06-13 22:57:08
這妞厲害!來橫店三個月從配角到女二!

這妞厲害!來橫店三個月從配角到女二!

TVB的四小花
2025-06-14 01:16:34
四川后天起迎39℃燒烤模式 雷雨突襲能降溫嗎

四川后天起迎39℃燒烤模式 雷雨突襲能降溫嗎

心鳶zzz
2025-06-14 08:40:47
國防部:要求日方停止危險挑釁行徑

國防部:要求日方停止危險挑釁行徑

看看新聞Knews
2025-06-13 23:13:46
36歲女子猛撩29歲小伙,小伙直接找不著北,網友:姜還是老得辣

36歲女子猛撩29歲小伙,小伙直接找不著北,網友:姜還是老得辣

農村情感故事
2025-06-12 17:41:29
江西一女刑犯在獄中懷孕,獄警調查3天后,卻在女人堆里找出奸夫

江西一女刑犯在獄中懷孕,獄警調查3天后,卻在女人堆里找出奸夫

懸案解密檔案
2025-06-13 10:26:24
兩伊戰爭拯救了中國的兵工廠:看當年的出口額,至今無法超越

兩伊戰爭拯救了中國的兵工廠:看當年的出口額,至今無法超越

蓮花盛開
2024-11-29 21:19:05
哪吒汽車被申請破產,管理人機構已確定

哪吒汽車被申請破產,管理人機構已確定

新京報
2025-06-13 20:29:49
瓦爾迪:我也想去看村超加入他們,我踢草根足球時可沒這場面

瓦爾迪:我也想去看村超加入他們,我踢草根足球時可沒這場面

直播吧
2025-06-13 12:13:25
天王山來了!SGA35+3+3統治第四節,雷霆111-104力克步行者

天王山來了!SGA35+3+3統治第四節,雷霆111-104力克步行者

運籌帷幄的籃球
2025-06-14 10:04:42
福耀科技大學招生數量引熱議,家長恐慌:這誰敢去

福耀科技大學招生數量引熱議,家長恐慌:這誰敢去

史書無明
2025-06-13 12:55:53
半天離職!上海一芯片團隊幾乎全裁!賠償N+3!

半天離職!上海一芯片團隊幾乎全裁!賠償N+3!

芯榜
2025-06-14 10:59:23
美記:霍姆格倫賽后一瘸一拐地走向球隊更衣室

美記:霍姆格倫賽后一瘸一拐地走向球隊更衣室

雷速體育
2025-06-14 12:32:28
下周行情(6.16日-20日)要點早知道

下周行情(6.16日-20日)要點早知道

玉名W
2025-06-14 09:20:06
任正非承認落后,外媒也指出華為芯片比美國落后,但結果破防了

任正非承認落后,外媒也指出華為芯片比美國落后,但結果破防了

互聯魚
2025-06-13 15:22:45
中國稀土能成戰略武器,他倆夫妻居功至偉,眼下急需解決一個問題

中國稀土能成戰略武器,他倆夫妻居功至偉,眼下急需解決一個問題

阿胡
2025-06-11 11:56:30
總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

小lu侃侃而談
2025-06-10 20:06:43
越扒越有!那爾那茜特權或是“家族傳承”?合照曝光,關系太驚人

越扒越有!那爾那茜特權或是“家族傳承”?合照曝光,關系太驚人

葡萄說娛
2025-06-14 10:02:28
2025-06-14 12:52:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10659文章數 176166關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

教育
健康
房產
手機
公開課

教育要聞

老師表面喜歡,實則“內心反感”的4種學生,地位還不如倒數差生

呼吸科專家破解呼吸道九大謠言!

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

手機要聞

小米 Poco F7 手機渲染圖曝光:驍龍 8s Gen 4 芯片、7550mAh電池

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 绥阳县| 慈溪市| 青龙| 白玉县| 华安县| 通许县| 当雄县| 互助| 嘉定区| 金门县| 祁东县| 福泉市| 格尔木市| 象山县| 鸡西市| 长春市| 武鸣县| 德保县| 灌阳县| 宾阳县| 广昌县| 含山县| 鹰潭市| 星子县| 金寨县| 徐水县| 屏东市| 城固县| 宜都市| 尤溪县| 丰原市| 康马县| 潮安县| 南昌市| 若羌县| 汉中市| 驻马店市| 康平县| 峨边| 株洲县| 海城市|