三周前,我們正式推出了xbench,一款致力于量化AI系統在真實場景的效用價值,以及采用長青評估機制的AI基準測試。
這期間,從大廠到創業公司,從大模型研究者到AI Agent開發者,我們收到了來自海內外的大量咨詢,特別是希望使用xbench評測集對他們的產品進行測試的需求與日俱增。
把紅杉投資團隊進行內部測評的工具打造成一款公開的AI基準測試,用公開透明的方式吸引更多AI人才和項目的共創,是我們打造xbench的初衷。我們相信開源精神可以讓xbench更好地進化,為AI社群創造更大的價值。
因此,紅杉中國今天正式開源xbench的兩個評測集xbench-ScienceQA和xbench-DeepSearch。未來,我們將基于大模型和AI Agent的發展情況不斷動態更新評測集,并且采用“黑白盒”機制,既保證xbench的發展可以服務更多的大模型和Agent開發者,同時盡力避免靜態評測集經常出現的過擬合問題,確保xbench的長期有效。
開源地址
1. website:
https://xbench.org/
2. github:
https://github.com/xbench-ai/xbench-evals
3. huggingface:
https://huggingface.co/datasets/xbench/ScienceQA
https://huggingface.co/datasets/xbench/DeepSearch
一、評測集xbench-ScienceQA和xbench-DeepSearch的特點
01
隨著推理模型的飛速發展,經典學科評測集如MMLU、MATH等已接近滿分,無法繼續度量模型能力的進展。博士研究生水平的學科知識和推理能力評測集如GPQA、SuperGPQA、HLE等成為新的評測標準,獲得了業界的認可與關注。考慮到研究生水平的題目數量少,出題難,答案驗證困難,且發布后缺少定期更新的機制,無法有效檢查評估集污染的程度,紅杉中國邀請了來自頂級院校的博士研究生以及資深行業專家,收集整理了來源可靠、多學科、搜索引擎未收錄、答案明確的高質量題庫,并將此成果開源發布為xbench-ScienceQA評測集。這個評測集的特點是:
專業題目構建:組織邀請來自頂級院校的博士研究生以及資深行業專家出題,并采用LLM難度檢驗、搜索引擎檢驗、同行檢驗等方式確保題目的公正性、區分度與正確性。
題目難度高、區分度好:整體平均正確率僅為32%,其中正確率不足20%的題目占三分之一。實測顯示,不同推理模型的得分差距顯著,跨度超過30%。
持續更新長期維護:每月榜單中持續匯報最新模型的能力表現,每季度至少更新一次評估集。同時,為了避免刷榜行為影響評測的公正性,我們在內部維護了一個閉源的黑盒版本,如果開源和閉源的排名相差較大,我們將會從榜單中移除相關排名和分數,以保證榜單結果的可信度。
02
自主規劃(Planning)→信息收集(Search)→推理分析(Reasoning)→總結歸納(Summarization)的深度搜索能力,是AI Agent通向AGI的核心能力之一。然而,這一能力的復雜性也為評估工作帶來了更高的挑戰。當前,業界主流評測集側重于基座模型的能力評估,高質量的Agent評測集相對稀缺。為了更好地考察Agent的深度搜索能力,紅杉中國推出并開源了xbench-DeepSearch評測集。這個評測集的特點是:
針對Agent設計:題庫中所有題目都需要Agent綜合運用規劃+搜索+推理+總結的端到端能力來解決。現有的知識搜索類基準測試(如SimpleQA)主要測量模型檢索簡單事實的能力,不依賴高階的規劃+推理能力,對于當下模型來說過于簡單,評測分數早已飽和。
專注深度搜索能力:與GAIA等綜合評測集不同,xbench-DeepSearch定位深度搜索能力的評估,在題庫設計時特別針對搜索空間的廣度和推理深度進行了充分考量,幫助Agent開發者更精準地拆解Agent能力維度,快速定位性能瓶頸和優化方向。
適配中文互聯網環境:由于搜索與本地內容的信源質量高度相關,相比于同樣定位深度搜索能力的BrowseComp評測集,xbench-DeepSearch彌補了其中文語境搜索題庫不足的弱點。
全新出題人工驗證:所有題目經由來自各行各業的專家人工出題,并由博士生交叉驗證,力求題目的新穎性和主題的多樣性,答案的正確性和唯一性,方便自動化評測。
持續更新長期維護:每月榜單中持續匯報最新模型的能力表現,每季度至少更新一次評估集。同時,為了避免刷榜行為影響評測的公正性,我們在內部維護了一個閉源的黑盒版本,如果開源和閉源的排名相差較大,我們將會從榜單中移除相關排名和分數,以保證榜單結果的可信度。
二、ScienceQA和DeepSearch的詳細介紹
1. xbench-ScienceQA
一個動態更新、持續匯報評估結果的科學與工程問答Benchmarks
題目構建方法
在xbench-ScienceQA評測集搭建過程中,我們邀請了數十位不同學科或產業背景的碩士和博士參與出題,題目圍繞自身擅長領域,可以來自私有數據與文獻、領域定向的數據庫或者是自己創造。此外,我們要求出題人在多個搜索引擎中搜索題目,確保答案不會直接出現在搜索結果中。
每個提交的新題目,會選擇多個模型進行測試。確認有至少一個模型做對,一個模型做錯,即會加入評測集。如果全部模型錯誤,我們會再進一步邀請該領域專家進行人工審核,進而決定是否選用。
針對準確率非常低的題目,我們會進一步與出題人確認題目來源與解題過程,同時會讓與出題人同領域的人對題目進行審核,確保題目正確。同時,也會要求非同行評審,確保非同行無法僅依靠搜索引擎找到答案。
xbench-ScienceQA評測集分為客觀題和選擇題。客觀題要求具備明確、可評估的答案信息(如數字、專業名詞、表達式等);選擇題中我們優先選擇了多選題和至少有5個以上選項的單選題,以降低模型“蒙對”的正確率。
學科和難度分布
學科分布:xbench-ScienceQA評測集主要聚焦于STEM學科,包含了數學、物理、化學、材料工程、計算機等在內的8個主流學科,并盡量保持學科間題目數量的均衡。
題型分布:xbench-ScienceQA評測集包含77道問答題,14道多選題以及9道單選題。由于單選題對BoN指標干擾較大(一個隨機四選一的模型,在單選題的BoN上都能近似得到滿分),我們盡量降低了單選題的比例。
難度分布:根據所測模型的準確率結果,可以計算出每道題的模型正確率。該正確率可以作為題目難度的估計。最終的題目難度分布如下圖,橫軸是題目的模型正確率,縱軸是題目的數量。平均正確率是32%,低于20%正確率的題目占34%,并且在不同難度層次上均有區分度。
2. xbench-DeepSearch
一個無污染的衡量AI Agent深度搜索能力的基準測試工具
題目構建方法
在xbench-DeepSearch題目構建過程中,我們邀請了來自各行各業的數十位專家志愿者,依照我們給定的標注手冊進行出題。所出題目要求使用搜索引擎進行驗證,保證不存在原題或是直接能夠檢索出答案。
為了保證題目具備難度和區分度,所有題目均需要經過主流模型的測試驗證,淘汰正確率>80%的題目。
深度搜索的難題,一般涉及搜索空間大,或者推理的步驟多。因此出題者在出題時,會被指引盡量提供滿足這兩個條件之一的題目,以增加題目難度。
主題和難度分布
主題分布
為了保證題目主題類型的多樣性,我們參考了OpenAI BrowseComp評測集的分類,鼓勵出題者圍繞他們喜好的主題出題,不僅能夠提高題目的質量和準確性,也幫助每個分類獲得足夠的題目覆蓋。最終的題目類型分布見下圖:
難度分布
根據所測模型/Agents的準確率結果,可以計算出每道題的模型成功率。該成功率可以作為題目難度的估計。如下圖中,橫軸是題目的模型成功率,縱軸是題目的數量。
另一種難度估計方法,是統計真人解決問題所花的時間。該方法更接近人類對難度的感知,但缺點在于對評測同學領域知識的要求較高,一個行業內的同學和行業外的同學在解決問題時所花的時間差距很大,容易導致錯誤估計。我們計劃在下次評測中給出真人所需耗時,作為難度分布的參考。
三、例題分析
1. ScienceQA例題及解析
示例1:
題目來源:本題的知識點基于2023年發表在IEEE 64th Annual Symposium on Foundations of Computer Science (FOCS) 的最新學術進展 A Randomized Algorithm for Single-Source Shortest Path on Undirected Real-Weighted Graphs
難度信息:本題難度較高,在所有被測模型上的平均正確率和BoN (N=5) 正確率,均低于5%
題目解析:要答對此題,則模型必須知道該文章的存在,并能夠正確從論文文本提取出正確的算法復雜度。大多數被測模型不具備該長尾知識,因此回答了已經被該文章突破的O(m+nlogn)復雜度,另有個別模型雖然關注到了目標論文,但是不能提取正確的最優結果。
示例2:
題目來源:某大學 深度學習理論課程 課后作業
難度信息:本題在所有被測模型上的平均正確率低于20%、BoN (N=5) 正確率低于30%
題目解析:Vapnik–Chervonenkis復雜度是統計學習理論中的重要組成部分,廣泛存在于互聯網博客、公開教科書等信息源中。本題在經典例題“計算坐標軸對齊矩形的VC維度”(答案為4)的基礎上加入嵌套矩形的新定義,考驗模型靈活推理的能力。要答對此題,需要應對兩步挑戰:將原先的4組數據推廣至8組,并在二維坐標系中構造新的數據點打散(shattering)方式。答錯的模型通常只能機械地套用定義,但不能在更復雜的嵌套結構中構造最優解。
示例3:
題目來源:某年某省 化學奧林匹克競賽 預賽試題
難度信息:本題在所有被測模型上的平均正確率低于20%、BoN (N=5) 正確率低于40%
題目解析:本題四個選項從多個角度考察了物質結構的相關知識。要答對此題,需要模型對涉及到的所有知識點均能做出正確判斷。我們對選擇題采用了“只要出現錯誤答案即得0分”的評分方式以降低偶然性,因此很多模型雖然判斷對了其中的2-3個選項,但所具備的長尾知識不夠豐富,在評測集中仍不得分。
2. DeepSearch例題及解析
在部分出題過程中,我們參考了BrowseComp中使用的“想謎底,出謎面”的思路,鼓勵出題者先根據給定的主題,隨機想一個可以驗證的事實謎底,然后根據謎底設計謎面。
示例:
出一道考察搜索廣度的題目
步驟一:
先確定謎底為兩位諾貝爾獎獲得者大衛?貝克
(David Baker)
和大衛?維因蘭德
(David Jeffrey Wineland)
步驟二:
設計有限的限制條件,引導模型在一個合理的搜索空間內進行深度搜索。這兩位諾貝爾獎獲得者,一位獲得了物理學獎,一位獲得了化學獎;兩位都曾就職于華盛頓大學;最后加上兩者的出生日期差別以保證答案的唯一性,這樣一道搜索廣度的題目就構建完成。
最終構建的題目為:
一位諾貝爾物理學獎得主同一位諾貝爾獎化學獎得主的年齡相差6799天,他們兩位有相同的first name,曾就職于同一所位于美國西岸的大學,請問這兩位諾貝爾獎得主是誰?
反之,另一種出題方式,是先想出謎面,逐步增加謎面的復雜度,最后設計出謎底來增加推理的深度。
示例:
出一道考察推理深度的題目
步驟一:
先確定一個出題者感興趣的主題,如一件歷史文物“
趙懷滿夏田契
步驟二:
為了考察推理深度,可以設計多層遞進的條件。這件文物中記載了一個年份貞觀十七年
(公元643年)
,然后搜索該年份有什么重大的歷史事件,可以搜到唐朝的名相魏徵去世,然后搜索魏徵,找到關于他的一個小眾的事實點進行考察。
最終構建的題目為:
有一個被剪做鞋樣的歷史文物,對研究唐代均田制起到了重要
的作用,這個文物中記載的年份,有一位唐朝的一代名相去世,請問這位名相有幾個兒子?
示例1:
題目來源:志愿者提供的新題
難度信息:本題在被測產品上的平均正確率約為33%
題目解析:本題較好地考察了模型的“規劃→搜索→推理分析”的能力。模型需要能夠規劃出第一步確定三個省份各自有哪些地市級行政單位,第二步針對每個地市級單位,確認是否與外國接壤。兩個步驟都需要有較好的搜索和推理分析能力才能獲得正確答案。由于涉及的地市較多,且需要逐一搜索相關網頁信息確認,側重于模型搜索廣度能力的考察。
示例2:
題目來源:志愿者提供的新題
難度信息:本題在被測產品上的平均正確率為47%
題目解析:本題考察模型的規劃和推理分析能力。需要能夠規劃出正確的分析步驟:第一步確定尼米茲級航母的下水時間,第二步根據時間確定有哪幾任美國總統在職,第三步確定有海軍服役經歷的總統,第四步確定平均服役時間。每一步的搜索都比較簡單,不涉及廣度搜索,重在推理深度能力的考察。
四、歡迎加入xbench,一起探索AI發展的最前沿
從2016年AlphaGo在圍棋比賽中擊敗韓國名將李世石,到2022年ChatGPT的橫空出世,AI在近些年迎來了一波高速發展的爆發期。
正所謂“AI一天,人間一年”,AI自我迭代的效率,已經遠遠超過人類過去大多數技術更新的速度。今天,在我們開源xbench的同時,希望號召更多評測愛好者、Agent開發者和AI研究者參與其中,一起去觀察、試驗和應用AI發展最前沿的技術和產品。
如果您是評測愛好者,想要參與到評測集的建設中;
如果您是模型或者Agent開發者,想要提交您的產品參與評測,或者提交白盒分數;
如果您希望給我們反饋意見,對題目或評估結果有疑問;
面向垂直領域智能體的Profession Aligned評測,xbench-Profession-Recruitment和xbench-Profession-Marketing暫未開源。但歡迎已經發布的模型或者Agent開發者,通過郵件聯系我們進行提測,測評完畢后將會告知其分數。
歡迎聯系team@xbench.org,我們會盡快反饋。
壹
貳
叁
肆
伍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.