99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

【人工智能】超越 ARC-AGI:GAIA 和對真正智能基準的探索

0
分享至



智力無處不在,但其衡量標準卻顯得主觀。我們最多只能通過測試和基準來粗略地衡量它。想想大學入學考試:每年都有無數學生報名參加,熟記備考技巧,有時還能拿到滿分。一個數字,比如100%,是否意味著獲得這個數字的人擁有相同的智力——或者他們已經達到了智力的極限?當然不是。基準只是近似值,而不是對某人(或某物)真實能力的精確衡量。

生成式人工智能社區長期以來一直依賴諸如MMLU(大規模多任務語言理解)之類的基準測試,通過跨學科的多項選擇題來評估模型能力。這種形式雖然可以直接進行比較,但無法真正捕捉智能能力。

例如,Claude 3.5 Sonnet 和 GPT-4.5 在該基準測試中的得分相近。理論上,這表明它們擁有同等的性能。然而,使用這些模型的人都知道,它們在實際性能上存在顯著差異。

衡量人工智能中的“智能”意味著什么?

ARC-AGI基準測試旨在推動模型向通用推理和創造性解決問題的方向發展,而隨著新發布的發布,關于如何衡量人工智能的“智能”的爭論再度升溫。雖然并非所有公司都測試過 ARC-AGI 基準測試,但業界對此以及其他旨在改進測試框架的努力表示歡迎。每個基準測試都有其優點,而 ARC-AGI 是這場更廣泛討論中值得期待的一步。

人工智能評估領域近期另一個值得關注的進展是“人類的最后考試”,這是一項涵蓋3000道同行評審、涵蓋多個學科的多步驟問題的完整基準測試。雖然這項測試代表著一項雄心勃勃的嘗試,旨在挑戰人工智能系統達到專家級推理能力,但早期結果顯示其進展迅速——據報道,OpenAI在其發布后的一個月內就取得了26.6%的得分。然而,與其他傳統基準測試一樣,它主要孤立地評估知識和推理能力,而沒有測試對現實世界的人工智能應用日益重要的實用工具使用能力。

在一個例子中,多個最先進的模型都無法正確計算單詞“strawberry”中“r”的數量。在另一個例子中,它們錯誤地將3.8識別為小于3.1111。這類失敗——即使是小孩子或使用普通計算器就能解決的任務——暴露了基準驅動的進步與現實世界的穩健性之間的不匹配,這提醒我們,智能不僅僅是通過考試,還在于可靠地駕馭日常邏輯。


衡量人工智能能力的新標準

隨著模型的進步,這些傳統的基準測試已經顯示出它們的局限性——盡管在多項選擇題測試中取得了令人印象深刻的成績,但在GAIA 基準測試中,帶有工具的 GPT-4 在更復雜的現實任務上僅取得了約 15% 的成績。

隨著人工智能系統從研究環境轉向商業應用,基準性能與實際能力之間的脫節問題日益嚴重。傳統的基準測試側重于知識回憶,但卻忽略了智能的關鍵要素:收集信息、執行代碼、分析數據以及跨領域綜合解決方案的能力。

GAIA 是人工智能評估方法論的必要變革。該基準測試由 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 團隊合作創建,包含 466 個精心設計的問題,涵蓋三個難度級別。這些問題測試網頁瀏覽、多模態理解、代碼執行、文件處理和復雜推理——這些能力對于現實世界的人工智能應用至關重要。

一級問題需要大約 5 個步驟和一種工具才能人工解決。二級問題需要 5 到 10 個步驟和多種工具,而三級問題則可能需要多達 50 個步驟和任意數量的工具。這種結構反映了業務問題的實際復雜性,解決方案很少來自單一的操作或工具。

通過優先考慮靈活性而非復雜性,一個人工智能模型在 GAIA 上的準確率達到了 75%,超越了行業巨頭微軟的 Magnetic-1(38%)和谷歌的 Langfun Agent(49%)。他們的成功源于其結合了多種專門用于視聽理解和推理的模型,其中以 Anthropic 的 Sonnet 3.5 為主要模型。

AI 評估的演變反映了行業更廣泛的轉變:我們正在從獨立的 SaaS 應用程序轉向能夠協調多種工具和工作流程的 AI Agent。隨著企業越來越依賴 AI 系統來處理復雜、多步驟的任務,像 GAIA 這樣的基準測試比傳統的多項選擇題測試更能有效地衡量企業的能力。

人工智能評估的未來并非在于孤立的知識測試,而是在于對問題解決能力的全面評估。GAIA 為衡量人工智能能力設立了新的標準,使其能夠更好地反映現實世界人工智能部署的挑戰和機遇。

免責聲明:

本文所發布的內容和圖片旨在傳播行業信息,版權歸原作者所有,非商業用途。 如有侵權,請與我們聯系。 所有信息僅供參考和分享,不構成任何投資建議。投資者應基于自身判斷和謹慎評估做出決策。 投資有風險,入市需謹慎。

注我們,一起探索AWM

2025-05-08

2025-05-06

2025-05-06

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
男子顯擺女友美貌,朋友看到視頻女主后報警,警察:發生關系就殺

男子顯擺女友美貌,朋友看到視頻女主后報警,警察:發生關系就殺

罪案洞察者
2025-05-29 14:00:14
《碟中諜8》創下票房紀錄,4個彩蛋看出誠意十足,影評人交口稱贊

《碟中諜8》創下票房紀錄,4個彩蛋看出誠意十足,影評人交口稱贊

娛貝勒
2025-06-01 10:52:05
為什么很多擁有幾百萬存款的人,平時都很樸素?內行人:5大原因

為什么很多擁有幾百萬存款的人,平時都很樸素?內行人:5大原因

平說財經
2025-05-31 22:37:47
國米為何在歐冠決賽輸巴黎5球?詹俊點評一針見血,獎金分配公布

國米為何在歐冠決賽輸巴黎5球?詹俊點評一針見血,獎金分配公布

體育大學僧
2025-06-01 08:38:08
曾被29隊棄用的小丑,如今季后賽狂砍511分成聯盟之最。

曾被29隊棄用的小丑,如今季后賽狂砍511分成聯盟之最。

淺夏憶
2025-06-01 14:14:48
萬科深陷債務危機,王石疑似被限制出境

萬科深陷債務危機,王石疑似被限制出境

娛樂八卦木木子
2025-06-01 00:36:54
別了,皇馬!“億元先生”正式遭出售!1.2億“頂星+空霸”來投

別了,皇馬!“億元先生”正式遭出售!1.2億“頂星+空霸”來投

頭狼追球
2025-06-01 11:29:47
下半年財神上門,成功轉運!3 生肖收入倍增,財運豐厚

下半年財神上門,成功轉運!3 生肖收入倍增,財運豐厚

人閒情事
2025-06-01 12:33:17
在孩子心里,親人的“排序”是這樣的,不管你是媽媽還是奶奶

在孩子心里,親人的“排序”是這樣的,不管你是媽媽還是奶奶

浩源的媽媽
2025-05-18 05:20:03
夫妻生活完事后,男性用紙擦一下就行了嗎?男人要注意這3件事!

夫妻生活完事后,男性用紙擦一下就行了嗎?男人要注意這3件事!

伊人河畔
2025-05-25 11:55:52
日本拆解霹靂-15E殘骸,氮化鎵芯片難倒東芝專家,中國早有防備!

日本拆解霹靂-15E殘骸,氮化鎵芯片難倒東芝專家,中國早有防備!

起喜電影
2025-06-01 10:55:18
央視點名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

央視點名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

說說史事
2025-05-08 17:42:56
新加坡總理黃循財,令中國很不爽,他究竟想干啥?

新加坡總理黃循財,令中國很不爽,他究竟想干啥?

今墨緣
2025-06-01 12:15:34
尹同躍:奇瑞發展方向就是緊跟華為,聽華為的我們就順利

尹同躍:奇瑞發展方向就是緊跟華為,聽華為的我們就順利

IT之家
2025-05-31 15:41:13
國家衛健委:全國嬰兒死亡率、5歲以下兒童死亡率分別降至4.0‰和5.6‰

國家衛健委:全國嬰兒死亡率、5歲以下兒童死亡率分別降至4.0‰和5.6‰

封面新聞
2025-05-30 20:02:16
節后,A股沖擊3400點,讓股民感受下牛市初期魅力!

節后,A股沖擊3400點,讓股民感受下牛市初期魅力!

數據挖掘分析
2025-06-01 08:59:16
朝鮮下手果斷,驅逐艦或已沒救

朝鮮下手果斷,驅逐艦或已沒救

龍視國際
2025-05-30 11:54:24
什么是“性成癮”?患者自白:我每天要弄十幾次,比戒毒還難!

什么是“性成癮”?患者自白:我每天要弄十幾次,比戒毒還難!

坦然風云
2025-05-22 14:05:05
田徑亞錦賽大勢:中國新人成長高于19金登頂 印度8金僅是正常發揮

田徑亞錦賽大勢:中國新人成長高于19金登頂 印度8金僅是正常發揮

勁爆體壇
2025-06-01 01:21:12
全球公認的最佳健身流程!照著練3個月,變化驚人

全球公認的最佳健身流程!照著練3個月,變化驚人

健身廚屋
2025-06-01 12:39:42
2025-06-01 15:11:00
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精選內容分享。以前沿視角,探索科技未來;讓每一個人,都走在時代的前沿
1117文章數 81關注度
往期回顧 全部

科技要聞

特朗普突然炒掉NASA準局長,嫌他不"忠誠"?

頭條要聞

開了4年的特斯拉突然被通知要花15萬換電池 女子懵了

頭條要聞

開了4年的特斯拉突然被通知要花15萬換電池 女子懵了

體育要聞

一邊倒的歐冠決賽,青春無敵的新科冠軍

娛樂要聞

張若昀夫婦國外遛娃 男方推平價兒童車

財經要聞

油價繼續下跌?歐佩克宣布將再度增產

汽車要聞

零跑汽車5月交付量達45,067臺 穩居新勢力前三

態度原創

藝術
教育
本地
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

南外也開始搞小升初招生咨詢會了?

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長在香會大肆渲染中國威脅 中方回應

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洮南市| 无为县| 霸州市| 米林县| 长宁区| 纳雍县| 石家庄市| 两当县| 宜良县| 余姚市| 浏阳市| 无棣县| 息烽县| 巴彦淖尔市| 农安县| 炉霍县| 武定县| 松原市| 海门市| 稻城县| 巨野县| 漳州市| 新乐市| 宿迁市| 尼木县| 贵溪市| 波密县| 麟游县| 鄂州市| 固阳县| 涪陵区| 淳化县| 马边| 彭泽县| 兴文县| 淅川县| 新余市| 仙桃市| 永新县| 柞水县| 略阳县|