2025年6月3日,經(jīng)濟(jì)合作與發(fā)展組織發(fā)布《OECD人工智能能力介紹》報告,介紹了OECD的“AI能力指標(biāo)”測試版。這些指標(biāo)旨在評估和比較AI相對于人類能力的發(fā)展情況,由50多位專家歷時5年合作開發(fā),涵蓋了從語言到操作等九種人類能力。現(xiàn)就該報告主要內(nèi)容總結(jié)如下。
1.目前AI能力已達(dá)到什么水平?
該報告提出了9項AI能力評估指標(biāo),每個指標(biāo)分1-5級別,1級最低,5級最高,后者意味著可以達(dá)到人類水平,目前AI在各指標(biāo)方面的能力具體如下表:
指標(biāo)
級別
能力描述
語言
3
此級別的AI系統(tǒng)能夠利用多語料庫知識可靠地理解和生成語義。它們展現(xiàn)出高級的邏輯和社會推理能力,能夠處理文本、語音和圖像。它們支持多種語言,并通過迭代學(xué)習(xí)技術(shù)進(jìn)行自適應(yīng)。
社交互動
2
AI系統(tǒng)結(jié)合簡單的動作來表達(dá)情緒,并從互動中學(xué)習(xí),以應(yīng)對未來的挑戰(zhàn)。它們會回憶事件,并根據(jù)經(jīng)驗進(jìn)行微調(diào),識別基本信號,并通過語氣和語境感知情緒。它們還能感知個體差異,并將過往經(jīng)驗應(yīng)用于反復(fù)出現(xiàn)的挑戰(zhàn)。
問題解決
2
AI系統(tǒng)將定性推理(例如空間或時間關(guān)系)與定量分析相結(jié)合,以解決使用傳統(tǒng)領(lǐng)域抽象框架構(gòu)建的復(fù)雜專業(yè)問題。它們能夠處理多種定性狀態(tài)和轉(zhuǎn)換,預(yù)測系統(tǒng)如何隨時間演變或變化。
創(chuàng)造力
3
AI系統(tǒng)能夠生成與訓(xùn)練數(shù)據(jù)截然不同的有價值輸出,挑戰(zhàn)傳統(tǒng)的界限。它們將技能擴(kuò)展到新任務(wù)中,并跨領(lǐng)域整合想法。
元認(rèn)知和批判性思維
2
AI系統(tǒng)會監(jiān)控自身的理解情況,并相應(yīng)地調(diào)整方法。它們處理的是可能包含模糊之處的熟悉信息,需要謹(jǐn)慎把握信心并做出有根據(jù)的推測。它們能夠應(yīng)對部分不完整的信息,區(qū)分自己已知和未知的內(nèi)容。
知識、學(xué)習(xí)和記憶
3
AI系統(tǒng)通過分布式表示學(xué)習(xí)信息的語義,并推廣到新情況。它們可以處理大規(guī)模數(shù)據(jù)集以獲得情境敏感的理解,但缺乏實時學(xué)習(xí)能力。
視覺
3
AI系統(tǒng)能夠處理目標(biāo)對象外觀和光照的一些變化,執(zhí)行多個子任務(wù),并應(yīng)對已知的數(shù)據(jù)和情況變化。
操作
2
AI系統(tǒng)處理各種形狀的物體和適度柔軟的材料,在低至中度雜亂的受控環(huán)境中操作。它們在開放空間中繞過小障礙物,適應(yīng)隨機(jī)放置在定義區(qū)域內(nèi)的物體,并在沒有時間限制的情況下執(zhí)行任務(wù)。
機(jī)器人智能
2
機(jī)器人系統(tǒng)在部分已知的、靜態(tài)的、半結(jié)構(gòu)化的環(huán)境中運(yùn)行,具有一些明確的可變性。它們處理短期、簡單的多功能任務(wù),這些任務(wù)雖然定義明確,但涉及內(nèi)在的不確定性。它們可以參與有限的人類交互(如極簡界面),并在熟悉的任務(wù)設(shè)置中管理一些意想不到的結(jié)果。他們幾乎不涉及道德問題。
2.如何評價AI目前的能力水平?
語言:目前最先進(jìn)的大語言模型如ChatGPT的GPT4o,被認(rèn)為處于第3級的低閾值。大語言模型擅長獲取世界知識,跨多種語言工作,并通過微調(diào)和后處理進(jìn)行迭代學(xué)習(xí)。由于無法進(jìn)行結(jié)構(gòu)良好的分析推理,并且容易產(chǎn)生錯誤信息,導(dǎo)致LLM難以進(jìn)行穩(wěn)健推理,這仍然是其發(fā)展的一個瓶頸。
社交互動:GPT-4o和同類的大語言模型在社交互動上被評定為2級,因為它們具備強(qiáng)大的社交記憶能力。然而,它們并非具身的,缺乏身份感且社交感知有限。像索尼的AIBO這樣的社交機(jī)器人也是2級水平,但其能力有所不同,其是具身的,擁有基本的感知和身份,但它們解決問題的能力不如大語言模型系統(tǒng)。
問題解決:符號AI系統(tǒng)在物流規(guī)劃和模型檢查等狹窄領(lǐng)域展示了超人類的能力,因此被評為2級水平。盡管LLM能夠滿足某些3級要求,例如解決以自然語言描述的問題,但由于它們的幻覺問題,它們?nèi)匀贿^于脆弱。這一點仍然適用于早期的“推理”模型,比如在2024年底發(fā)布的GPTo1預(yù)覽版。更先進(jìn)的“推理”模型,如GPTo3和DeepSeek R1 V3是否如此,將在OECD人工智能能力指標(biāo)的完整版中進(jìn)行分析。
創(chuàng)造力:當(dāng)前的AI系統(tǒng)能夠生成對人類有價值的輸出,有些新穎,有時甚至令人驚喜。谷歌的AlphaZero就是一個達(dá)到3級水平的例子,它利用神經(jīng)符號架構(gòu),生成了高效且令人驚訝的策略。LLM依賴于概率架構(gòu)和訓(xùn)練數(shù)據(jù)(即先前人類生成的內(nèi)容),這意味著它們無法生成與現(xiàn)有人類知識有顯著差異的輸出。然而,這些輸出通常很有用,有時甚至很新穎,這意味著LLM是典型的2級水平。
元認(rèn)知與批判性思維:目前最先進(jìn)的LLM通常在元認(rèn)知和批判性思維上被評為2級。它們能夠監(jiān)控自己的理解,并根據(jù)當(dāng)前問題調(diào)整其解決方法。然而,它們在整合不熟悉的信息或評估自身知識方面存在困難,而這正是3級所要求的水平。在評估時,代理系統(tǒng)通常也表現(xiàn)為2級,這反映出AI在自我監(jiān)控和自適應(yīng)調(diào)節(jié)自身推理能力方面的持續(xù)局限。
知識、學(xué)習(xí)與記憶:LLM和相關(guān)形式的生成式AI是這一領(lǐng)域的前沿系統(tǒng),通過從存儲知識中進(jìn)行概括等能力,達(dá)到了3級。盡管在這一領(lǐng)域已經(jīng)進(jìn)行了一些關(guān)于AI智能體的研究,但迄今為止沒有任何系統(tǒng)表現(xiàn)出4級所要求的能力,例如通過與世界的互動進(jìn)行增量學(xué)習(xí),或具有對知識空白的元認(rèn)知意識。
視覺:目前前沿的AI視覺系統(tǒng)處于3級。雖有少數(shù)具有有限4級能力,然而這種性能尚不足以讓任何系統(tǒng)達(dá)到該等級。3級系統(tǒng)能夠穩(wěn)健地處理有限范圍的數(shù)據(jù)類型,并能應(yīng)對目標(biāo)物體在光照、形狀和外觀方面的細(xì)微變化。與4級系統(tǒng)不同,當(dāng)前的AI視覺系統(tǒng)無法基于自我反饋來提升性能,也無法應(yīng)對光照和目標(biāo)物體的較大變化。
操作:目前AI操作系統(tǒng)被評定為2級。典型的最先進(jìn)系統(tǒng)是用于高度控制的制造環(huán)境中的機(jī)器人手臂。相比之下,3級系統(tǒng)能夠在適度雜亂和動態(tài)的環(huán)境中工作,能夠處理形狀、大小和重量各異的物體。操作系統(tǒng)仍距離人類水平還很遠(yuǎn)。然而,在物體和環(huán)境能夠標(biāo)準(zhǔn)化的情況下——例如在工廠中——這些系統(tǒng)仍將對人類就業(yè)產(chǎn)生影響,且對技能需求的影響依然存在。
機(jī)器人智能:最先進(jìn)的機(jī)器人系統(tǒng)是自主配送機(jī)器人和工業(yè)自動化系統(tǒng),它們被為2級水平。這些系統(tǒng)在結(jié)構(gòu)化環(huán)境中執(zhí)行預(yù)定義任務(wù)時表現(xiàn)良好。然而,機(jī)器人系統(tǒng)目前無法可靠地執(zhí)行多步驟任務(wù)或與人類協(xié)作,這是達(dá)到3級所必需的。
3.為什么要推出AI能力指標(biāo)框架?
該報告指出,目前對AI發(fā)展存在不同看法,有的認(rèn)為AI將將拯救世界,有的認(rèn)為AI將毀滅世界。在這樣一個充斥著炒作與恐懼的話語環(huán)境中,對于AI真實能力的清晰、可靠且具細(xì)致區(qū)分度的信息依然嚴(yán)重缺失。即使是AI的開發(fā)者,也并不完全了解當(dāng)前AI系統(tǒng)的能力,或它們正在以多快的速度發(fā)展。
OECD這一框架為政策制定者提供了他們急需的清晰指導(dǎo),幫助其在日益復(fù)雜的技術(shù)環(huán)境中做出理性決策,并制定具有前瞻性的戰(zhàn)略。自2022年ChatGPT推出以來,AI與機(jī)器人技術(shù)迅速發(fā)展,全球政策制定者普遍意識到評估其能力的緊迫性。例如,歐盟的《人工智能法案》明確規(guī)定要進(jìn)行定期監(jiān)測。與此同時,OECD理事會的《人工智能建議書》以及2025年巴黎AI峰會也強(qiáng)調(diào)了理解AI對勞動市場影響的重要性。
盡管關(guān)注度有所提升,但一個長期存在的缺口仍未填補(bǔ):目前尚缺乏一個系統(tǒng)化的框架,能夠以易于理解且與政策制定相關(guān)的方式全面衡量人工智能能力。為彌補(bǔ)這一不足,OECD開發(fā)了一套AI能力評估框架,并推出了測試版“AI能力指標(biāo)體系”。該指標(biāo)體系的設(shè)計具有以下四大特征:
易懂性——以直觀方式呈現(xiàn)人工智能的優(yōu)勢與局限;
政策關(guān)聯(lián)性——為教育、就業(yè)及經(jīng)濟(jì)領(lǐng)域受AI影響的情況提供洞察;
全面性——涵蓋人工智能能力的所有關(guān)鍵維度;
動態(tài)響應(yīng)性——通過系統(tǒng)性更新追蹤AI技術(shù)發(fā)展進(jìn)程。
將AI能力與人類能力對標(biāo),有助于政策制定者更準(zhǔn)確地評估AI在教育、工作和日常生活中可能發(fā)揮的作用。目前ML Commons和斯坦福AI指數(shù)等主流AI評估框架僅通過基準(zhǔn)測試表現(xiàn)來刻畫AI能力,缺乏與人類能力的直接對比。這種孤立呈現(xiàn)的基準(zhǔn)測試結(jié)果存在雙重局限:對于非AI專業(yè)人士而言晦澀難懂;即便是AI研究人員,也難以據(jù)此判斷這些指標(biāo)如何反映AI系統(tǒng)在真實場景中的實際任務(wù)執(zhí)行能力。
資料來源:
OECD (2025), Introducing the OECD AI Capability Indicators, OECD Publishing, Paris, https://doi.org/10.1787/be745f04-en.
[本文為教育部國別和區(qū)域研究基地中國教育科學(xué)研究院國際教育研究中心研究成果]
本文由中國教育科學(xué)研究院“教育國際前沿”課題組成員整理,課題組負(fù)責(zé)人張永軍,編輯劉強(qiáng),內(nèi)容僅供參考。點擊左下角“閱讀原文”可下載該文獻(xiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.