99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OECD報告:AI能力達(dá)到什么水平了?

0
分享至


2025年6月3日,經(jīng)濟(jì)合作與發(fā)展組織發(fā)布《OECD人工智能能力介紹》報告,介紹了OECD的“AI能力指標(biāo)”測試版。這些指標(biāo)旨在評估和比較AI相對于人類能力的發(fā)展情況,由50多位專家歷時5年合作開發(fā),涵蓋了從語言到操作等九種人類能力。現(xiàn)就該報告主要內(nèi)容總結(jié)如下。

1.目前AI能力已達(dá)到什么水平?

該報告提出了9項AI能力評估指標(biāo),每個指標(biāo)分1-5級別,1級最低,5級最高,后者意味著可以達(dá)到人類水平,目前AI在各指標(biāo)方面的能力具體如下表:

指標(biāo)

級別

能力描述

語言

3

此級別的AI系統(tǒng)能夠利用多語料庫知識可靠地理解和生成語義。它們展現(xiàn)出高級的邏輯和社會推理能力,能夠處理文本、語音和圖像。它們支持多種語言,并通過迭代學(xué)習(xí)技術(shù)進(jìn)行自適應(yīng)。

社交互動

2

AI系統(tǒng)結(jié)合簡單的動作來表達(dá)情緒,并從互動中學(xué)習(xí),以應(yīng)對未來的挑戰(zhàn)。它們會回憶事件,并根據(jù)經(jīng)驗進(jìn)行微調(diào),識別基本信號,并通過語氣和語境感知情緒。它們還能感知個體差異,并將過往經(jīng)驗應(yīng)用于反復(fù)出現(xiàn)的挑戰(zhàn)。

問題解決

2

AI系統(tǒng)將定性推理(例如空間或時間關(guān)系)與定量分析相結(jié)合,以解決使用傳統(tǒng)領(lǐng)域抽象框架構(gòu)建的復(fù)雜專業(yè)問題。它們能夠處理多種定性狀態(tài)和轉(zhuǎn)換,預(yù)測系統(tǒng)如何隨時間演變或變化。

創(chuàng)造力

3

AI系統(tǒng)能夠生成與訓(xùn)練數(shù)據(jù)截然不同的有價值輸出,挑戰(zhàn)傳統(tǒng)的界限。它們將技能擴(kuò)展到新任務(wù)中,并跨領(lǐng)域整合想法。

元認(rèn)知和批判性思維

2

AI系統(tǒng)會監(jiān)控自身的理解情況,并相應(yīng)地調(diào)整方法。它們處理的是可能包含模糊之處的熟悉信息,需要謹(jǐn)慎把握信心并做出有根據(jù)的推測。它們能夠應(yīng)對部分不完整的信息,區(qū)分自己已知和未知的內(nèi)容。

知識、學(xué)習(xí)和記憶

3

AI系統(tǒng)通過分布式表示學(xué)習(xí)信息的語義,并推廣到新情況。它們可以處理大規(guī)模數(shù)據(jù)集以獲得情境敏感的理解,但缺乏實時學(xué)習(xí)能力。

視覺

3

AI系統(tǒng)能夠處理目標(biāo)對象外觀和光照的一些變化,執(zhí)行多個子任務(wù),并應(yīng)對已知的數(shù)據(jù)和情況變化。

操作

2

AI系統(tǒng)處理各種形狀的物體和適度柔軟的材料,在低至中度雜亂的受控環(huán)境中操作。它們在開放空間中繞過小障礙物,適應(yīng)隨機(jī)放置在定義區(qū)域內(nèi)的物體,并在沒有時間限制的情況下執(zhí)行任務(wù)。

機(jī)器人智能

2

機(jī)器人系統(tǒng)在部分已知的、靜態(tài)的、半結(jié)構(gòu)化的環(huán)境中運(yùn)行,具有一些明確的可變性。它們處理短期、簡單的多功能任務(wù),這些任務(wù)雖然定義明確,但涉及內(nèi)在的不確定性。它們可以參與有限的人類交互(如極簡界面),并在熟悉的任務(wù)設(shè)置中管理一些意想不到的結(jié)果。他們幾乎不涉及道德問題。

2.如何評價AI目前的能力水平?


語言:目前最先進(jìn)的大語言模型如ChatGPT的GPT4o,被認(rèn)為處于第3級的低閾值。大語言模型擅長獲取世界知識,跨多種語言工作,并通過微調(diào)和后處理進(jìn)行迭代學(xué)習(xí)。由于無法進(jìn)行結(jié)構(gòu)良好的分析推理,并且容易產(chǎn)生錯誤信息,導(dǎo)致LLM難以進(jìn)行穩(wěn)健推理,這仍然是其發(fā)展的一個瓶頸。

社交互動:GPT-4o和同類的大語言模型在社交互動上被評定為2級,因為它們具備強(qiáng)大的社交記憶能力。然而,它們并非具身的,缺乏身份感且社交感知有限。像索尼的AIBO這樣的社交機(jī)器人也是2級水平,但其能力有所不同,其是具身的,擁有基本的感知和身份,但它們解決問題的能力不如大語言模型系統(tǒng)。

問題解決:符號AI系統(tǒng)在物流規(guī)劃和模型檢查等狹窄領(lǐng)域展示了超人類的能力,因此被評為2級水平。盡管LLM能夠滿足某些3級要求,例如解決以自然語言描述的問題,但由于它們的幻覺問題,它們?nèi)匀贿^于脆弱。這一點仍然適用于早期的“推理”模型,比如在2024年底發(fā)布的GPTo1預(yù)覽版。更先進(jìn)的“推理”模型,如GPTo3和DeepSeek R1 V3是否如此,將在OECD人工智能能力指標(biāo)的完整版中進(jìn)行分析。

創(chuàng)造力:當(dāng)前的AI系統(tǒng)能夠生成對人類有價值的輸出,有些新穎,有時甚至令人驚喜。谷歌的AlphaZero就是一個達(dá)到3級水平的例子,它利用神經(jīng)符號架構(gòu),生成了高效且令人驚訝的策略。LLM依賴于概率架構(gòu)和訓(xùn)練數(shù)據(jù)(即先前人類生成的內(nèi)容),這意味著它們無法生成與現(xiàn)有人類知識有顯著差異的輸出。然而,這些輸出通常很有用,有時甚至很新穎,這意味著LLM是典型的2級水平。

元認(rèn)知與批判性思維:目前最先進(jìn)的LLM通常在元認(rèn)知和批判性思維上被評為2級。它們能夠監(jiān)控自己的理解,并根據(jù)當(dāng)前問題調(diào)整其解決方法。然而,它們在整合不熟悉的信息或評估自身知識方面存在困難,而這正是3級所要求的水平。在評估時,代理系統(tǒng)通常也表現(xiàn)為2級,這反映出AI在自我監(jiān)控和自適應(yīng)調(diào)節(jié)自身推理能力方面的持續(xù)局限。

知識、學(xué)習(xí)與記憶:LLM和相關(guān)形式的生成式AI是這一領(lǐng)域的前沿系統(tǒng),通過從存儲知識中進(jìn)行概括等能力,達(dá)到了3級。盡管在這一領(lǐng)域已經(jīng)進(jìn)行了一些關(guān)于AI智能體的研究,但迄今為止沒有任何系統(tǒng)表現(xiàn)出4級所要求的能力,例如通過與世界的互動進(jìn)行增量學(xué)習(xí),或具有對知識空白的元認(rèn)知意識。

視覺:目前前沿的AI視覺系統(tǒng)處于3級。雖有少數(shù)具有有限4級能力,然而這種性能尚不足以讓任何系統(tǒng)達(dá)到該等級。3級系統(tǒng)能夠穩(wěn)健地處理有限范圍的數(shù)據(jù)類型,并能應(yīng)對目標(biāo)物體在光照、形狀和外觀方面的細(xì)微變化。與4級系統(tǒng)不同,當(dāng)前的AI視覺系統(tǒng)無法基于自我反饋來提升性能,也無法應(yīng)對光照和目標(biāo)物體的較大變化。

操作:目前AI操作系統(tǒng)被評定為2級。典型的最先進(jìn)系統(tǒng)是用于高度控制的制造環(huán)境中的機(jī)器人手臂。相比之下,3級系統(tǒng)能夠在適度雜亂和動態(tài)的環(huán)境中工作,能夠處理形狀、大小和重量各異的物體。操作系統(tǒng)仍距離人類水平還很遠(yuǎn)。然而,在物體和環(huán)境能夠標(biāo)準(zhǔn)化的情況下——例如在工廠中——這些系統(tǒng)仍將對人類就業(yè)產(chǎn)生影響,且對技能需求的影響依然存在。

機(jī)器人智能:最先進(jìn)的機(jī)器人系統(tǒng)是自主配送機(jī)器人和工業(yè)自動化系統(tǒng),它們被為2級水平。這些系統(tǒng)在結(jié)構(gòu)化環(huán)境中執(zhí)行預(yù)定義任務(wù)時表現(xiàn)良好。然而,機(jī)器人系統(tǒng)目前無法可靠地執(zhí)行多步驟任務(wù)或與人類協(xié)作,這是達(dá)到3級所必需的。

3.為什么要推出AI能力指標(biāo)框架?

該報告指出,目前對AI發(fā)展存在不同看法,有的認(rèn)為AI將將拯救世界,有的認(rèn)為AI將毀滅世界。在這樣一個充斥著炒作與恐懼的話語環(huán)境中,對于AI真實能力的清晰、可靠且具細(xì)致區(qū)分度的信息依然嚴(yán)重缺失。即使是AI的開發(fā)者,也并不完全了解當(dāng)前AI系統(tǒng)的能力,或它們正在以多快的速度發(fā)展。


OECD這一框架為政策制定者提供了他們急需的清晰指導(dǎo),幫助其在日益復(fù)雜的技術(shù)環(huán)境中做出理性決策,并制定具有前瞻性的戰(zhàn)略。自2022年ChatGPT推出以來,AI與機(jī)器人技術(shù)迅速發(fā)展,全球政策制定者普遍意識到評估其能力的緊迫性。例如,歐盟的《人工智能法案》明確規(guī)定要進(jìn)行定期監(jiān)測。與此同時,OECD理事會的《人工智能建議書》以及2025年巴黎AI峰會也強(qiáng)調(diào)了理解AI對勞動市場影響的重要性。


盡管關(guān)注度有所提升,但一個長期存在的缺口仍未填補(bǔ):目前尚缺乏一個系統(tǒng)化的框架,能夠以易于理解且與政策制定相關(guān)的方式全面衡量人工智能能力。為彌補(bǔ)這一不足,OECD開發(fā)了一套AI能力評估框架,并推出了測試版“AI能力指標(biāo)體系”。該指標(biāo)體系的設(shè)計具有以下四大特征:

易懂性——以直觀方式呈現(xiàn)人工智能的優(yōu)勢與局限;

政策關(guān)聯(lián)性——為教育、就業(yè)及經(jīng)濟(jì)領(lǐng)域受AI影響的情況提供洞察;

全面性——涵蓋人工智能能力的所有關(guān)鍵維度;

動態(tài)響應(yīng)性——通過系統(tǒng)性更新追蹤AI技術(shù)發(fā)展進(jìn)程。

將AI能力與人類能力對標(biāo),有助于政策制定者更準(zhǔn)確地評估AI在教育、工作和日常生活中可能發(fā)揮的作用。目前ML Commons和斯坦福AI指數(shù)等主流AI評估框架僅通過基準(zhǔn)測試表現(xiàn)來刻畫AI能力,缺乏與人類能力的直接對比。這種孤立呈現(xiàn)的基準(zhǔn)測試結(jié)果存在雙重局限:對于非AI專業(yè)人士而言晦澀難懂;即便是AI研究人員,也難以據(jù)此判斷這些指標(biāo)如何反映AI系統(tǒng)在真實場景中的實際任務(wù)執(zhí)行能力。

資料來源:

OECD (2025), Introducing the OECD AI Capability Indicators, OECD Publishing, Paris, https://doi.org/10.1787/be745f04-en.

[本文為教育部國別和區(qū)域研究基地中國教育科學(xué)研究院國際教育研究中心研究成果]

本文由中國教育科學(xué)研究院“教育國際前沿”課題組成員整理,課題組負(fù)責(zé)人張永軍,編輯劉強(qiáng),內(nèi)容僅供參考。點擊左下角“閱讀原文”可下載該文獻(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
讓男友買機(jī)票,和老外纏綿的女大學(xué),被大連工業(yè)大學(xué)開除了

讓男友買機(jī)票,和老外纏綿的女大學(xué),被大連工業(yè)大學(xué)開除了

漢史趣聞
2025-07-13 09:10:10
在清朝,康熙從北京出發(fā),去一趟承德避暑山莊,到底要多長時間?

在清朝,康熙從北京出發(fā),去一趟承德避暑山莊,到底要多長時間?

文辰國學(xué)
2025-07-11 12:32:39
冷門迭爆!474名撿漏北大,中南財經(jīng)雙線爆冷,網(wǎng)友議論紛紛

冷門迭爆!474名撿漏北大,中南財經(jīng)雙線爆冷,網(wǎng)友議論紛紛

史海流年號
2025-07-12 23:26:20
32歲演員胡一天回應(yīng)送外賣,此前600多天未進(jìn)組引發(fā)熱議

32歲演員胡一天回應(yīng)送外賣,此前600多天未進(jìn)組引發(fā)熱議

FM93浙江交通之聲
2025-07-13 21:42:43
俄烏戰(zhàn)場再現(xiàn)震撼反殺,受傷烏軍連斃4人

俄烏戰(zhàn)場再現(xiàn)震撼反殺,受傷烏軍連斃4人

史政先鋒
2025-07-13 18:53:59
115-39!狂勝75分,澳大利亞打瘋了,目標(biāo)冠軍,中國女籃一喜一憂

115-39!狂勝75分,澳大利亞打瘋了,目標(biāo)冠軍,中國女籃一喜一憂

體育就你秀
2025-07-13 18:46:49
匈牙利總理:歐洲已輸?shù)舳頌鯖_突 卻不敢承認(rèn)

匈牙利總理:歐洲已輸?shù)舳頌鯖_突 卻不敢承認(rèn)

魯中晨報
2025-07-13 14:51:26
第四國正式入局!戰(zhàn)局突變,烏克蘭挑釁中國,中方閃電反制

第四國正式入局!戰(zhàn)局突變,烏克蘭挑釁中國,中方閃電反制

智觀科技
2025-07-12 17:55:04
2年前免簽+隨隊奪亞冠?沙特媒:33歲菲爾米諾去薩德轉(zhuǎn)會費(fèi)700萬

2年前免簽+隨隊奪亞冠?沙特媒:33歲菲爾米諾去薩德轉(zhuǎn)會費(fèi)700萬

直播吧
2025-07-13 17:07:17
震驚!大連工業(yè)大學(xué)一女學(xué)生被開除,因和烏克蘭已婚男不正當(dāng)交往

震驚!大連工業(yè)大學(xué)一女學(xué)生被開除,因和烏克蘭已婚男不正當(dāng)交往

小人物看盡人間百態(tài)
2025-07-13 08:20:06
美國男童誤吞中國制空調(diào)遙控電池致傷殘 獲賠2.92 億元引發(fā)熱議!

美國男童誤吞中國制空調(diào)遙控電池致傷殘 獲賠2.92 億元引發(fā)熱議!

華人生活網(wǎng)
2025-07-13 05:01:58
重慶通報2名患者使用臨床研究抗癌藥調(diào)查核實情況

重慶通報2名患者使用臨床研究抗癌藥調(diào)查核實情況

界面新聞
2025-07-13 20:35:48
杜特爾特?fù)?dān)憂自己死在海牙!最高法院突然出手,莎拉有救了

杜特爾特?fù)?dān)憂自己死在海牙!最高法院突然出手,莎拉有救了

王朝風(fēng)云
2025-07-13 06:34:16
不滿王曼昱?女雙丟冠后,孫穎莎黑臉原因曝光,誰注意她的舉動

不滿王曼昱?女雙丟冠后,孫穎莎黑臉原因曝光,誰注意她的舉動

體育有點水
2025-07-13 18:15:49
聯(lián)合國向韓國下最后通牒!還有5天時間,拿不出證據(jù)就是文化挪用

聯(lián)合國向韓國下最后通牒!還有5天時間,拿不出證據(jù)就是文化挪用

文雅筆墨
2025-07-12 14:47:18
烏國家安全局上校當(dāng)街遭槍殺后 烏方稱打死兩名涉事俄特工

烏國家安全局上校當(dāng)街遭槍殺后 烏方稱打死兩名涉事俄特工

上游新聞
2025-07-13 19:53:06
部分鉛中毒幼兒出院,多位家長質(zhì)疑,作案動機(jī)待解

部分鉛中毒幼兒出院,多位家長質(zhì)疑,作案動機(jī)待解

中國新聞周刊
2025-07-13 14:32:08
淄博一景區(qū)回應(yīng)“凌晨數(shù)十人蒙眼行走”:一公司晚上搞健步走,活動已停止

淄博一景區(qū)回應(yīng)“凌晨數(shù)十人蒙眼行走”:一公司晚上搞健步走,活動已停止

紅星新聞
2025-07-13 19:39:53
比狗舔的還干凈!杭州一女士給某火鍋店差評,被店家調(diào)出監(jiān)控回懟

比狗舔的還干凈!杭州一女士給某火鍋店差評,被店家調(diào)出監(jiān)控回懟

明月雜談
2025-07-12 14:31:46
葉柯徹底甩了黃曉明?閨蜜爆料兩人不止一個孩子,還是楊穎聰明!

葉柯徹底甩了黃曉明?閨蜜爆料兩人不止一個孩子,還是楊穎聰明!

觀察鑒娛
2025-07-13 16:40:18
2025-07-13 22:51:00
國際與比較教育研究所 incentive-icons
國際與比較教育研究所
中國教育科學(xué)研究院
327文章數(shù) 403關(guān)注度
往期回顧 全部

科技要聞

Grok正式登陸特斯拉 "脫韁模式"讓車主上頭

頭條要聞

媒體:若遼寧艦訪俄 俄羅斯人又將不惜代價要擁有航母

頭條要聞

媒體:若遼寧艦訪俄 俄羅斯人又將不惜代價要擁有航母

體育要聞

楊瀚森兩戰(zhàn)20+9+8 隔扣成最大亮點

娛樂要聞

38歲何潔近照曝光,與老公用餐甜蜜

財經(jīng)要聞

宗馥莉被三名“同父異母”弟妹起訴

汽車要聞

小米YU7深度試駕:優(yōu)點很多缺點也很多

態(tài)度原創(chuàng)

房產(chǎn)
健康
親子
游戲
旅游

房產(chǎn)要聞

8大新盤曝光!2025下半場,廣州主城開卷廝殺!

呼吸科專家破解呼吸道九大謠言!

親子要聞

2025夏季新款兒童韓版爆款冰感防曬速干休閑運(yùn)動寬松無袖背心

手游吃瓜周報:月廚大勝利!FGO國服九周年,崩鐵聯(lián)動Fate全是梗

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 平南县| 铜陵市| 东光县| 东阳市| 锡林郭勒盟| 星子县| 应城市| 浮山县| 玉环县| 利津县| 大邑县| 福鼎市| 离岛区| 定陶县| 平定县| 广灵县| 镶黄旗| 彩票| 类乌齐县| 建阳市| 轮台县| 进贤县| 松桃| 资中县| 永寿县| 化德县| 墨玉县| 彝良县| 岑巩县| 玉环县| 桃园县| 井研县| 丰城市| 昌吉市| 武宣县| 庆城县| 始兴县| 嘉禾县| 珠海市| 普兰县| 神农架林区|