網易首頁 > 網易號 > 正文申請入駐

紅杉中國推出AI 測評工具

2025-05-27 16:51:09　來源: i黑馬

北京舉報

分享至

紅杉認為，隨著大語言模型的快速發展和AI Agent 進入規模化應用階段，被廣泛使用的基準測試面臨一個日益尖銳的問題：第三方基準并不能完全客觀反映 AI 的能力。

于是他們在今天推出一款AI 基準測試工具 xbench。

xbench 采用雙軌評估體系，將 AI 評測任務分為兩條互補的主線：（1）評估 AI 系統的能力上限與技術邊界；（2）量化 AI 系統在真實場景的效用價值（Utility Value）。紅杉中國稱，xbench 會重點量化 AI 系統在真實場景的效用價值，捕捉 Agent 產品的關鍵突破。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
32 跟貼 32
零代碼構建多Agent! 騰訊云智能體開發平臺全面升級

量子位 2025-05-29 19:23:28
0 跟貼 0

大模型智能體如何突破規模化應用瓶頸，核心在于Agentic ROI

機器之心Pro 2025-05-30 19:30:03
1 跟貼 1

誰導致了多智能體系統的失敗？首個「自動化失敗歸因」研究出爐

機器之心Pro 2025-05-30 14:13:44
0 跟貼 0
新石器余恩源：無人配送車競爭剛剛開始，唯有競爭才能構建高效生態系統

每日經濟新聞 2025-06-01 15:01:11
0 跟貼 0

剛剛，“互聯網女皇”發布首份“AI趨勢報告”，長達340頁，引發業界圍觀

華爾街見聞官方 2025-05-31 19:55:36
30 跟貼 30

既下沉又趁早的英特爾AI教育，讓每個人都能跟得上數字化時代

DeepTech深科技 2025-06-01 09:14:59
1 跟貼 1
獨家！哈工大斬獲AI頂會ACL評審階段最高分，讓AI領略漢字之美

新智元 2025-06-01 09:07:51
2 跟貼 2

研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
超級開箱 | 尊界S800首發評測，華為ADS 4居然如此絲滑？

Autolab 2025-06-01 00:54:14
0 跟貼 0
汽車博主顏宇鵬問界M8飛坡測試視頻引熱議

三言科技 2025-05-29 23:29:59
1484 跟貼 1484
問界M8飛坡測試惹爭議！超速近100%，車評人“蛙跳”只為博流量？

爾東陳譚 2025-05-31 23:02:43
18 跟貼 18
YYP回應飛坡，關鍵信息什么都沒說？

熱點科技 2025-05-30 15:54:18
96 跟貼 96
滿足海量碎紙需求科密黑金剛+碎紙機評測

中關村在線 2025-05-30 12:39:09
0 跟貼 0
塞爾維亞19歲女孩乘滑翔傘疑突發恐慌掙扎

新京報 2025-05-31 21:25:52
782 跟貼 782
真我Realme Neo7 Turbo首發評測，透明性價比滿防水

葉秋評測 2025-05-29 18:06:54
0 跟貼 0
奇葩！業主房屋空置一年多，閣樓門前和露臺變成菜地

極目新聞 2025-05-31 20:11:44
7052 跟貼 7052
印度"首次承認"戰機被擊落：不是6架幾架并不重要

澎湃新聞 2025-06-01 08:03:26
7315 跟貼 7315
馬自達是最適合做新能源的產品，它總有自己的風格

大衛說說車 2025-05-30 17:24:53
1 跟貼 1
以官員：以不會允許阿拉伯國家開會討論巴勒斯坦建國

環球網資訊 2025-05-31 17:33:57
11008 跟貼 11008
解密：現代字母大小寫體系是如何形成的？

星星科普 2025-05-29 20:35:33
1 跟貼 1
莫迪：印度2047年超日德成為發達國家，我們不再使用任何外國產品

臺海大林 2025-05-31 00:03:23
46 跟貼 46
濟南快速發展的縮影，濟南CBD十年里的華麗蝶變

齊魯壹點 2025-05-31 15:30:03
34 跟貼 34
老余有點過分了！在華為質量體系下，某些車企一臺車都無法出貨？

翻開歷史和現實 2025-06-01 13:22:07
11 跟貼 11
只剩幾堵墻的別墅被拍出2683萬元高價，小區保安：至少兩年前就已被拆

極目新聞 2025-05-31 19:20:16
759 跟貼 759
32所新大學來了，有何深意

中國新聞周刊 2025-05-31 19:48:12
1258 跟貼 1258
蘇超賽場外文旅破圈，端午節6萬揚州人游常州

現代快報 2025-06-01 00:24:07
427 跟貼 427
盜走核心技術就是這么絲滑

二匠影視 2025-05-31 08:24:17
0 跟貼 0
印度對當今的中國誤會有多深？不僅買不起摩托車, 還落后印度30年

侃侃兒談 2025-06-01 12:13:41
1 跟貼 1
70年浮船塢沉沒，臺軍裝備為何總栽在水上，后勤體系還能撐多久？

Air空修 2025-05-31 15:52:26
0 跟貼 0
莫迪發聲，矛頭直指中國？公開呼吁14億民眾：抵制所有外國產品

陌上桃花開的 2025-05-31 04:53:36
0 跟貼 0
如果能穿越回過去，你會帶著先進技術回到哪個時

包子同學呀 2025-05-31 10:33:35
2 跟貼 2
"龍舟房東隊"隊員：隊里房最多的人家中房不是按套算

上游新聞 2025-05-31 10:23:29
940 跟貼 940
中國潛艇降噪技術突破26分貝：讓聲吶探測范圍大幅縮小

像風走了八萬里不問歸期 2025-05-31 03:12:18
0 跟貼 0
趙本山兒子開130萬罕見豪車，沈陽僅此幾輛，比勞斯萊斯還少見！

小毅說事 2025-05-28 08:15:56
30 跟貼 30
新疆旱地龍舟火上熱搜！網友：主打沒有一點水分

環球網資訊 2025-05-31 22:28:55
3130 跟貼 3130
夢幻西游：新裝備放出后，這種寶石必掉價，有貨的趕緊拋售！

九分游戲 2025-05-31 10:03:00
1 跟貼 1
信陽市中小學電教教材建設暨基礎教育大數據學科質量測評應用工作培訓會召開

時代報告 2025-05-29 17:43:36
0 跟貼 0
生于1987年的李金玲，任職不到1年再提拔

新京報政事兒 2025-05-31 20:53:11
457 跟貼 457

手機 / 數碼

房產 / 家居

紅杉中國推出AI 測評工具

特朗普突然炒掉NASA準局長，嫌他不"忠誠"?

奔馳4S店"忠誠客戶"過保半年發現車子"通病":接受不了

奔馳4S店"忠誠客戶"過保半年發現車子"通病":接受不了

一邊倒的歐冠決賽，青春無敵的新科冠軍

張若昀夫婦國外遛娃 男方推平價兒童車

油價繼續下跌？歐佩克宣布將再度增產

態度原創

唇皰疹和口腔潰瘍是"同伙"嗎？

保持“臨界狀態”以平和心態應對復習

今年夏天最火的10組搭配，都在這篇啦！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

熱聞|清明假期將至，熱門目的地有哪些?

張若昀夫婦國外遛娃男方推平價兒童車