99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讓GPT-4.1「頭皮發(fā)麻的考試」!OpenAI給大模型上強(qiáng)度,AI能贏嗎?

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】當(dāng)AI模型擁有千萬級(jí)Token的超長(zhǎng)記憶力時(shí),如何檢驗(yàn)它們的真正實(shí)力?OpenAI給出了新答案:MRCR基準(zhǔn)測(cè)試。這不再是簡(jiǎn)單的「大海撈針」,而是要求模型在海量文本中,區(qū)分并找到多個(gè)一模一樣的「針」中的特定一個(gè),難度堪稱「AI 界的奧運(yùn)會(huì)」。MRCR不僅有助于揭示當(dāng)前AI的能力邊界,也將促使下一代更強(qiáng)大、更可靠模型的誕生。

雕塑在大理石塊中已經(jīng)完成,甚至在我開始工作之前就已經(jīng)存在。

它就在那里,我只需要鑿去多余的材料。

——米開朗基羅

當(dāng)被問及是如何創(chuàng)作出如此美麗的雕塑時(shí),米開朗基羅說「雕塑已經(jīng)存在,我只是需要鑿去多余的材料」。

當(dāng)21世紀(jì)的一個(gè)AI模型去理解一個(gè)非常長(zhǎng)的上下文時(shí),冥冥之中與15世紀(jì)的雕塑家發(fā)生了共鳴。

一個(gè)「超長(zhǎng)的上下文」就像米開朗基羅手里的大理石,AI必須鑿去無關(guān)信息以揭示其中的本質(zhì)。

4月15日,時(shí),更多的人關(guān)注模型的能力以及各系列「奇怪的」命名規(guī)則。


如果再加上OpenAI最近發(fā)布的o3和o4-mini,以后操縱一個(gè)AI聊天界面估計(jì)不亞于開宇宙飛船。

除了新模型,OpenAI還公布了一個(gè)叫做MRCR的評(píng)測(cè)標(biāo)準(zhǔn)數(shù)據(jù)集,如果說以前檢測(cè)模型上下文能力的測(cè)試叫做「大海撈針」的話。

新的MRCR標(biāo)準(zhǔn)就是針對(duì)AI模型上下文能力的「奧運(yùn)會(huì)」級(jí)別測(cè)評(píng)。

在信息海洋中「大海撈針」

「大海撈針」是翻譯過來的,原文叫做The Needle In a Haystack,最早還得追溯到GPT-4那個(gè)「年代」(感嘆下,AI發(fā)展的如此快,上一個(gè)里程碑時(shí)刻都要用年代來感知了,其實(shí)也就是2023年的事情)

最早是Greg Kamradt為了測(cè)試GPT-4的上下文能力提出的。


「The needle in a haystack」就是指將特定的、想要檢索的信息(needle)嵌入到超長(zhǎng)且復(fù)雜的文本(haystack)中。

AI能否從這塊大理石(haystack)中鑿出美麗的雕像?


Greg Kamradt評(píng)估了GPT-4的能力。當(dāng)輸入tokens大于100k,這些信息「針」被嵌入在文檔的百分之十至百分之五十之間時(shí),GPT-4的大海撈針的能力開始顯著下降。

但在GPT4.1中,這個(gè)能力得到了「巨大」的提升,有多大?


上圖是OpenAI發(fā)布GPT4.1時(shí)同時(shí)公布的信息,展示了 GPT-4.1在上下文窗口中不同位置檢索一小段隱藏信息(「針」)的能力。

橫軸是Input tokens從10K一直到1M,縱軸是「針」的位置。

測(cè)試結(jié)果全部藍(lán)色,全部成功!

GPT-4.1能夠在所有位置和所有上下文長(zhǎng)度下一致且準(zhǔn)確地檢索到針,上下文長(zhǎng)度一直到100萬個(gè)tokens。

什么意思呢?就是說GPT4.1能夠有效地提取與手頭任務(wù)相關(guān)的任何細(xì)節(jié),無論這些細(xì)節(jié)在輸入中的位置如何。

看來現(xiàn)在的大模型處理2年前的「大海撈針」已經(jīng)毫無壓力了。

并且PGT4.1的上下文窗口來到了「史詩級(jí)」的10M,1000萬tokens!是上述測(cè)試時(shí)的10倍。

用OpenAI的話,這個(gè)長(zhǎng)度的上下文可以塞得下8個(gè)完整的React代碼庫。


那么,模型真的可以處理這么長(zhǎng)的上下文嗎?

2年前的「大海撈針」標(biāo)準(zhǔn)還能有效測(cè)試如今的大模型嗎?

終極「躲貓貓」游戲,OpenAI MRCR登場(chǎng)!

標(biāo)準(zhǔn)的「大海撈針」測(cè)試雖然有用,但對(duì)于如今的大模型可能有點(diǎn)太「溫柔」了。

如果想要找的不止一根針呢?如果這些針長(zhǎng)得一模一樣呢?如果要求找的不是特定的一根針,而是特定順序的幾根呢?

歡迎來到OpenAI MRCR的世界——一場(chǎng)為頂級(jí)AI大模型設(shè)計(jì)的終極「躲貓貓」游戲!

OpenAI MRCR增加了任務(wù)難度,MRCR(Multi-round co-reference resolution,多輪共指消解)是一個(gè)用于評(píng)估大語言模型區(qū)分隱藏在長(zhǎng)上下文中的多個(gè)目標(biāo)能力的數(shù)據(jù)集。

MRCR數(shù)據(jù)集把「大海撈針」的難度提升到了一個(gè)全新的境界,來看一下OpenAI提供的例子。


任務(wù)是給定了一段用戶和模型之間的長(zhǎng)對(duì)話,比如先寫一首關(guān)于「tapirs」的詩,再寫一首關(guān)于「rocks」的詩,然后再寫一首關(guān)于「tapirs」的詩,以此類推。。。來增加這個(gè)上下文的難度。

最后的要求是:將「aYooSG8CQg」加到第二首關(guān)于「tapirs」的詩前面。

這個(gè)測(cè)試非常具有挑戰(zhàn)性,因?yàn)椋?/p>

  • 刺激項(xiàng)(針:也就是aYooSG8CQg)與干擾項(xiàng)(haystack:也就是長(zhǎng)對(duì)話上下文)來自相同的分布。

  • 所有AI助手的回答都是由gpt4o生成的,因此刺激項(xiàng)很容易與干擾項(xiàng)混淆。

  • 模型必須區(qū)分刺激項(xiàng)之間的順序:比如模型能分別出關(guān)于tapirs的詩是第幾首。

  • 刺激項(xiàng)數(shù)量越多,任務(wù)就越困難。

  • 上下文越長(zhǎng),任務(wù)的難度也越大。

這個(gè)測(cè)試不僅對(duì)于GPT4.1,而且對(duì)于其他推理模型也相當(dāng)困難。

MRCR不僅僅是測(cè)試模型能不能「找到」信息,更是考驗(yàn)它在極端干擾下,能否精確地、魯棒地、有區(qū)別地定位到目標(biāo)信息。

這就像在極其嘈雜的環(huán)境中,讓你準(zhǔn)確聽出并復(fù)述某個(gè)特定人的特定一句話。

OpenAI也給出了在不同難度下(不同的針數(shù)),模型的準(zhǔn)確性隨著上下文的增大,迅速的降低。

比如2個(gè)針的情況下,在GPT4.1、GPT4.1-mini以及GPT4.1 nano的準(zhǔn)確性同步降低。


在4針和8針的情況下,當(dāng)上下文足夠大的時(shí)候,GPT4.1 mini的準(zhǔn)確性甚至稍微超過了GPT4.1。


在這個(gè)「嚴(yán)苛」的測(cè)試中,也許并不是模型越大越好。


AI 的「考試」永無止境

從GPT3.5的簡(jiǎn)單的問答到DeepSeek-R1、OpenAI-o1的復(fù)雜的推理,從基礎(chǔ)的語言理解到極限的「大海撈針」再到更嚴(yán)格的MRCR,AI 大模型的基準(zhǔn)測(cè)試就像一場(chǎng)永無止境的「考試」。

像OenAI-MRCR這樣的創(chuàng)新性基準(zhǔn),不斷地為這些聰明的AI模型設(shè)置新的、更難的挑戰(zhàn)。

這些測(cè)試基準(zhǔn)本身不是目的,它們的真正價(jià)值在于:

  • 揭示能力邊界: 讓我們更清楚地認(rèn)識(shí)到當(dāng)前 AI 的能力極限在哪里。

  • 驅(qū)動(dòng)技術(shù)進(jìn)步: 激勵(lì)研究者們開發(fā)出更強(qiáng)大、更可靠、更能應(yīng)對(duì)真實(shí)世界復(fù)雜性的 AI 模型。

  • 促進(jìn)審慎應(yīng)用: 了解模型的強(qiáng)項(xiàng)和弱點(diǎn),有助于我們更負(fù)責(zé)任、更有效地使用這項(xiàng)強(qiáng)大的技術(shù)。

GPT4.1已經(jīng)可以從10M上下文中找到關(guān)鍵的信息,未來AI大模型的能力上限在哪里呢?

AI的未來充滿了無限可能,而這些嚴(yán)苛的基準(zhǔn)測(cè)試,正是照亮前行道路,指引AI模型穩(wěn)步向前的「燈塔」。

參考資料:

https://huggingface.co/datasets/openai/mrcr

https://openai.com/index/gpt-4-1/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄外交部發(fā)言人:澤連斯基關(guān)于俄羅斯5月9日安全問題的言論構(gòu)成直接威脅

俄外交部發(fā)言人:澤連斯基關(guān)于俄羅斯5月9日安全問題的言論構(gòu)成直接威脅

俄羅斯衛(wèi)星通訊社
2025-05-04 16:05:05
黃東萍談被罰:來了月經(jīng)局間需要去廁所,被罰分點(diǎn)燃了自己的狀態(tài)

黃東萍談被罰:來了月經(jīng)局間需要去廁所,被罰分點(diǎn)燃了自己的狀態(tài)

直播吧
2025-05-04 16:57:02
明日立夏是“兇日”,記得:1不理、2不穿、3不洗、4要走、5要吃

明日立夏是“兇日”,記得:1不理、2不穿、3不洗、4要走、5要吃

戶外阿嶄
2025-05-04 10:44:16
柴懟懟賬號(hào)被禁言30天!公開喊話張一鳴:忙完了,連你們一起搞。

柴懟懟賬號(hào)被禁言30天!公開喊話張一鳴:忙完了,連你們一起搞。

娛樂看阿敞
2025-05-04 10:43:23
姆巴佩無解世界波!狂突20米臥射破門,沖擊金靴,僅落后萊萬2球

姆巴佩無解世界波!狂突20米臥射破門,沖擊金靴,僅落后萊萬2球

奧拜爾
2025-05-04 20:51:24
虧損高達(dá)50億,3億煙民“供不起”中國煙草?為何中國煙草連年虧

虧損高達(dá)50億,3億煙民“供不起”中國煙草?為何中國煙草連年虧

巢客HOME
2025-05-04 10:45:04
小姑子:嫂子,你媽退休了,讓她來伺候我媽,嫂子:讓你婆婆去

小姑子:嫂子,你媽退休了,讓她來伺候我媽,嫂子:讓你婆婆去

多久情感
2025-05-03 21:07:07
樂壞了!兩名中藥學(xué)女碩士放下架子送外賣,第一天掙了二百多塊…

樂壞了!兩名中藥學(xué)女碩士放下架子送外賣,第一天掙了二百多塊…

火山詩話
2025-05-04 05:59:26
網(wǎng)傳這個(gè)女孩在餐廳里用雙語要求黑人回她的老家!

網(wǎng)傳這個(gè)女孩在餐廳里用雙語要求黑人回她的老家!

去非
2025-05-04 09:18:21
爸媽打瞌睡,5歲哥哥帶2歲妹妹獨(dú)自下高鐵:想叫他們的,但是覺得保護(hù)妹妹比較重要

爸媽打瞌睡,5歲哥哥帶2歲妹妹獨(dú)自下高鐵:想叫他們的,但是覺得保護(hù)妹妹比較重要

瀟湘晨報(bào)
2025-05-04 16:37:09
5月4日俄烏最新:轉(zhuǎn)折點(diǎn)

5月4日俄烏最新:轉(zhuǎn)折點(diǎn)

西樓飲月
2025-05-04 21:14:06
開始轉(zhuǎn)移視線了!

開始轉(zhuǎn)移視線了!

燕梳樓頻道
2025-05-04 14:17:27
啦啦隊(duì)女神熱舞走光!NuBra掉下來當(dāng)場(chǎng)摸到小葡萄

啦啦隊(duì)女神熱舞走光!NuBra掉下來當(dāng)場(chǎng)摸到小葡萄

葫蘆哥愛吐槽
2025-05-04 15:23:20
官方正式公布了!確認(rèn)是葛優(yōu)

官方正式公布了!確認(rèn)是葛優(yōu)

魯中晨報(bào)
2025-05-04 15:28:02
香港文匯報(bào)報(bào)道了4+4,沒有拐彎抹角,四點(diǎn)內(nèi)容直接戳中痛點(diǎn)

香港文匯報(bào)報(bào)道了4+4,沒有拐彎抹角,四點(diǎn)內(nèi)容直接戳中痛點(diǎn)

雪餅說
2025-05-04 17:59:13
誰能奪得本賽季歐洲金靴? 目前或僅有這四人有機(jī)會(huì)!

誰能奪得本賽季歐洲金靴? 目前或僅有這四人有機(jī)會(huì)!

田先生籃球
2025-05-03 22:20:43
襲擊閱兵式前戲暴力開演!烏軍炸斷刻赤大橋,無人艇擊落2架蘇30

襲擊閱兵式前戲暴力開演!烏軍炸斷刻赤大橋,無人艇擊落2架蘇30

大風(fēng)文字
2025-05-04 12:36:47
上海宣布:開通3條應(yīng)急線路!高速堵成停車場(chǎng)?有腦溢血患者緊急求助,救援啟動(dòng)→

上海宣布:開通3條應(yīng)急線路!高速堵成停車場(chǎng)?有腦溢血患者緊急求助,救援啟動(dòng)→

上觀新聞
2025-05-04 19:30:34
五一最堵10大景點(diǎn)出爐!網(wǎng)友:第1名堵到懷疑人生,第5名直接勸退

五一最堵10大景點(diǎn)出爐!網(wǎng)友:第1名堵到懷疑人生,第5名直接勸退

布拉旅游說
2025-05-03 02:55:28
女記者不雅片網(wǎng)絡(luò)流出,名嘴曝驚人真相:竟是被報(bào)復(fù)

女記者不雅片網(wǎng)絡(luò)流出,名嘴曝驚人真相:竟是被報(bào)復(fù)

葫蘆哥愛吐槽
2025-05-04 14:54:09
2025-05-04 23:11:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12644文章數(shù) 66026關(guān)注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關(guān)鍵

頭條要聞

美司令:解放軍訓(xùn)練廣度變化是"非線性的" 讓我夜不能寐

頭條要聞

美司令:解放軍訓(xùn)練廣度變化是"非線性的" 讓我夜不能寐

體育要聞

聯(lián)盟30隊(duì)首發(fā)得分后衛(wèi),他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時(shí)期”完全不同!

財(cái)經(jīng)要聞

一個(gè)時(shí)代的結(jié)束!巴菲特年底將卸任

汽車要聞

小米SU7大優(yōu)惠!5月限時(shí)購車權(quán)益送輔助駕駛

態(tài)度原創(chuàng)

房產(chǎn)
旅游
數(shù)碼
教育
時(shí)尚

房產(chǎn)要聞

最強(qiáng)書包官宣落位!??谶@個(gè)片區(qū),將徹底引爆!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

游戲本市場(chǎng)精確化細(xì)分 機(jī)械革命多款5070Ti機(jī)型亮相

教育要聞

高考300分也能搶金飯碗!三線職院專業(yè)選得好,畢業(yè)直接端央企鐵飯碗

卷首語 | 今天,致敬青春,致敬自己!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 阳东县| 红安县| 焉耆| 阳曲县| 元阳县| 陆丰市| 屯昌县| 新绛县| 石嘴山市| 永州市| 鹤庆县| 东乌珠穆沁旗| 肃南| 泗阳县| 宿州市| 玉树县| 利川市| 满城县| 临颍县| 红河县| 甘孜县| 珲春市| 安康市| 逊克县| 扬中市| 河源市| 两当县| 新巴尔虎左旗| 平山县| 漠河县| 淳安县| 孟村| 澄城县| 会理县| 邵阳市| 文山县| 大方县| 聂拉木县| 民勤县| 文化| 和平区|