紅杉認為,隨著大語言模型的快速發展和AI Agent 進入規模化應用階段,被廣泛使用的基準測試面臨一個日益尖銳的問題:第三方基準并不能完全客觀反映 AI 的能力。
于是他們在今天推出一款AI 基準測試工具 xbench。
xbench 采用雙軌評估體系,將 AI 評測任務分為兩條互補的主線:(1)評估 AI 系統的能力上限與技術邊界;(2)量化 AI 系統在真實場景的效用價值(Utility Value)。紅杉中國稱,xbench 會重點量化 AI 系統在真實場景的效用價值,捕捉 Agent 產品的關鍵突破。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.