智力無處不在,但其衡量標準卻顯得主觀。我們最多只能通過測試和基準來粗略地衡量它。想想大學入學考試:每年都有無數學生報名參加,熟記備考技巧,有時還能拿到滿分。一個數字,比如100%,是否意味著獲得這個數字的人擁有相同的智力——或者他們已經達到了智力的極限?當然不是。基準只是近似值,而不是對某人(或某物)真實能力的精確衡量。
生成式人工智能社區長期以來一直依賴諸如MMLU(大規模多任務語言理解)之類的基準測試,通過跨學科的多項選擇題來評估模型能力。這種形式雖然可以直接進行比較,但無法真正捕捉智能能力。
例如,Claude 3.5 Sonnet 和 GPT-4.5 在該基準測試中的得分相近。理論上,這表明它們擁有同等的性能。然而,使用這些模型的人都知道,它們在實際性能上存在顯著差異。
衡量人工智能中的“智能”意味著什么?
ARC-AGI基準測試旨在推動模型向通用推理和創造性解決問題的方向發展,而隨著新發布的發布,關于如何衡量人工智能的“智能”的爭論再度升溫。雖然并非所有公司都測試過 ARC-AGI 基準測試,但業界對此以及其他旨在改進測試框架的努力表示歡迎。每個基準測試都有其優點,而 ARC-AGI 是這場更廣泛討論中值得期待的一步。
人工智能評估領域近期另一個值得關注的進展是“人類的最后考試”,這是一項涵蓋3000道同行評審、涵蓋多個學科的多步驟問題的完整基準測試。雖然這項測試代表著一項雄心勃勃的嘗試,旨在挑戰人工智能系統達到專家級推理能力,但早期結果顯示其進展迅速——據報道,OpenAI在其發布后的一個月內就取得了26.6%的得分。然而,與其他傳統基準測試一樣,它主要孤立地評估知識和推理能力,而沒有測試對現實世界的人工智能應用日益重要的實用工具使用能力。
在一個例子中,多個最先進的模型都無法正確計算單詞“strawberry”中“r”的數量。在另一個例子中,它們錯誤地將3.8識別為小于3.1111。這類失敗——即使是小孩子或使用普通計算器就能解決的任務——暴露了基準驅動的進步與現實世界的穩健性之間的不匹配,這提醒我們,智能不僅僅是通過考試,還在于可靠地駕馭日常邏輯。
衡量人工智能能力的新標準
隨著模型的進步,這些傳統的基準測試已經顯示出它們的局限性——盡管在多項選擇題測試中取得了令人印象深刻的成績,但在GAIA 基準測試中,帶有工具的 GPT-4 在更復雜的現實任務上僅取得了約 15% 的成績。
隨著人工智能系統從研究環境轉向商業應用,基準性能與實際能力之間的脫節問題日益嚴重。傳統的基準測試側重于知識回憶,但卻忽略了智能的關鍵要素:收集信息、執行代碼、分析數據以及跨領域綜合解決方案的能力。
GAIA 是人工智能評估方法論的必要變革。該基準測試由 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 團隊合作創建,包含 466 個精心設計的問題,涵蓋三個難度級別。這些問題測試網頁瀏覽、多模態理解、代碼執行、文件處理和復雜推理——這些能力對于現實世界的人工智能應用至關重要。
一級問題需要大約 5 個步驟和一種工具才能人工解決。二級問題需要 5 到 10 個步驟和多種工具,而三級問題則可能需要多達 50 個步驟和任意數量的工具。這種結構反映了業務問題的實際復雜性,解決方案很少來自單一的操作或工具。
通過優先考慮靈活性而非復雜性,一個人工智能模型在 GAIA 上的準確率達到了 75%,超越了行業巨頭微軟的 Magnetic-1(38%)和谷歌的 Langfun Agent(49%)。他們的成功源于其結合了多種專門用于視聽理解和推理的模型,其中以 Anthropic 的 Sonnet 3.5 為主要模型。
AI 評估的演變反映了行業更廣泛的轉變:我們正在從獨立的 SaaS 應用程序轉向能夠協調多種工具和工作流程的 AI Agent。隨著企業越來越依賴 AI 系統來處理復雜、多步驟的任務,像 GAIA 這樣的基準測試比傳統的多項選擇題測試更能有效地衡量企業的能力。
人工智能評估的未來并非在于孤立的知識測試,而是在于對問題解決能力的全面評估。GAIA 為衡量人工智能能力設立了新的標準,使其能夠更好地反映現實世界人工智能部署的挑戰和機遇。
免責聲明:
本文所發布的內容和圖片旨在傳播行業信息,版權歸原作者所有,非商業用途。 如有侵權,請與我們聯系。 所有信息僅供參考和分享,不構成任何投資建議。投資者應基于自身判斷和謹慎評估做出決策。 投資有風險,入市需謹慎。
關注我們,一起探索AWM!
2025-05-08
2025-05-06
2025-05-06
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.