網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大模型最近的突破，全靠瘋狂作弊

2025-04-18 21:10:26　來(lái)源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報(bào)

分享至

選自L(fǎng)esswrong

作者：lc機(jī)器之心編譯編輯：澤南、張倩

Llama 4 或許只是冰山一角。

「AI 大模型自去年 8 月以來(lái)就沒(méi)有太大進(jìn)步」。這是一位 AI 創(chuàng)業(yè)者在近期的一篇博客中發(fā)表的觀(guān)點(diǎn)。

他在創(chuàng)業(yè)過(guò)程中發(fā)現(xiàn)，自去年 8 月以來(lái)，AI 大模型（如 Claude 3.7 等）在官方發(fā)布的基準(zhǔn)測(cè)試上聲稱(chēng)的巨大進(jìn)步與實(shí)際應(yīng)用場(chǎng)景中的有限提升之間存在明顯脫節(jié)。這導(dǎo)致他們無(wú)法借助模型能力來(lái)提升產(chǎn)品體驗(yàn)。很多 YC 創(chuàng)業(yè)者也有類(lèi)似的體驗(yàn)。

作者認(rèn)為，這其中可能的原因包括基準(zhǔn)測(cè)試作弊、基準(zhǔn)無(wú)法衡量實(shí)用性或模型實(shí)際很聰明但對(duì)齊存在瓶頸。如果不解決這些基礎(chǔ)問(wèn)題，AI 系統(tǒng)可能會(huì)在表面上顯得很聰明，但在組合成社會(huì)系統(tǒng)時(shí)會(huì)出現(xiàn)根本問(wèn)題。

以下是博客原文：

模型得分與消費(fèi)者體驗(yàn)脫節(jié)

大約九個(gè)月前，我和三個(gè)朋友認(rèn)為人工智能已經(jīng)足夠好，可以自主監(jiān)控大型代碼庫(kù)的安全問(wèn)題了。我們圍繞這個(gè)任務(wù)成立了一家公司，試圖利用最新的大模型能力來(lái)創(chuàng)建一種工具，用以取代至少很大一部分滲透測(cè)試人員的價(jià)值。我們從 2024 年 6 月開(kāi)始從事這個(gè)項(xiàng)目。

在公司成立后的頭三個(gè)月內(nèi)，Anthropic 的 Claude 3.5 sonnet 就發(fā)布了。只需切換在 GPT-4o 上運(yùn)行的服務(wù)部分，我們剛剛起步的內(nèi)部基準(zhǔn)測(cè)試結(jié)果就會(huì)立即開(kāi)始飽和。我記得當(dāng)時(shí)很驚訝，我們的工具不僅似乎犯的基本錯(cuò)誤更少，而且其書(shū)面漏洞描述和嚴(yán)重性估計(jì)似乎也有了質(zhì)的提高。就好像即使是在不完整的信息中，這些模型也能更善于推斷人類(lèi)提示背后的意圖和價(jià)值。

事實(shí)上，安全研究基本上沒(méi)有公開(kāi)的基準(zhǔn)。有「網(wǎng)絡(luò)安全」評(píng)估會(huì)向 AI 模型詢(xún)問(wèn)有關(guān)孤立代碼塊的問(wèn)題，「CTF」評(píng)估會(huì)為模型提供明確的挑戰(zhàn)描述和對(duì) <1kLOC Web 應(yīng)用程序的 shell 訪(fǎng)問(wèn)權(quán)限。但沒(méi)有什么能觸及 LLM 應(yīng)用程序滲透測(cè)試的難點(diǎn) —— 一是瀏覽一個(gè)太大而無(wú)法放在上下文中的真實(shí)代碼庫(kù)；二是推斷目標(biāo)應(yīng)用程序的安全模型；三是深入理解其實(shí)現(xiàn)，以了解該安全模型在哪里出現(xiàn)了問(wèn)題。

出于這些原因，我認(rèn)為漏洞識(shí)別任務(wù)是衡量 LLM 在狹窄的軟件工程領(lǐng)域之外的泛化性的一個(gè)很好的試金石。

自 3.5-sonnet 以來(lái)，我們一直在監(jiān)控 AI 大模型的發(fā)布，并嘗試過(guò)幾乎每個(gè)聲稱(chēng)有所改進(jìn)的主要新版本。令人意想不到的是，除了 3.6 的小幅提升和 3.7 的更小提升外，我們嘗試的所有新模型都沒(méi)有對(duì)我們的內(nèi)部基準(zhǔn)或開(kāi)發(fā)人員發(fā)現(xiàn)新錯(cuò)誤的能力產(chǎn)生重大影響。這包括新的測(cè)試時(shí)間計(jì)算 OpenAI 模型。

起初我很緊張，不敢公開(kāi)報(bào)告此事，因?yàn)槲艺J(rèn)為這可能會(huì)對(duì)我們團(tuán)隊(duì)產(chǎn)生不良影響。自去年 8 月以來(lái)，我們的掃描有了很大的改進(jìn)，但這是因?yàn)槌Ｒ?guī)工程，而不是模型改進(jìn)的提升。這可能是我們?cè)O(shè)計(jì)的架構(gòu)存在問(wèn)題，隨著 SWE-Bench 分?jǐn)?shù)的上升，我們并沒(méi)有獲得更多的進(jìn)展。

但最近幾個(gè)月，我與其他從事 AI 應(yīng)用初創(chuàng)企業(yè)的 YC 創(chuàng)始人進(jìn)行了交談，他們中的大多數(shù)人都有相同的經(jīng)歷：1. 見(jiàn)證了 o99-pro-ultra 大模型發(fā)布，2. 基準(zhǔn)測(cè)試看起來(lái)不錯(cuò)，3. 實(shí)際應(yīng)用評(píng)估表現(xiàn)平平。盡管我們從事不同的行業(yè)，處理不同的問(wèn)題，但情況大致相同。有時(shí)創(chuàng)始人會(huì)對(duì)這種說(shuō)法做出回應(yīng)（「我們只是沒(méi)有任何博士級(jí)的問(wèn)題可以問(wèn)」），但這種說(shuō)法是存在的。

我讀過(guò)這些研究，也看過(guò)這些數(shù)字。也許與大模型的交談變得更有趣了，也許他們?cè)谑芸乜荚囍斜憩F(xiàn)得更好了。但我仍然想根據(jù)內(nèi)部基準(zhǔn)以及我自己和同事們使用這些模型的看法提出觀(guān)點(diǎn)：大模型公司向公眾報(bào)告的任何提升都不能反映經(jīng)濟(jì)實(shí)用性或普遍性。它們不能反映我或我客戶(hù)的實(shí)際體驗(yàn)。就能夠執(zhí)行全新的任務(wù)或更大比例的用戶(hù)智力勞動(dòng)而言，我認(rèn)為自去年 8 月以來(lái)它們就沒(méi)有太大進(jìn)步了。

如果你是大模型競(jìng)品公司的工程師，這或許是個(gè)好消息！對(duì)我個(gè)人而言，作為一個(gè)試圖利用大模型能力賺錢(qián)的人，它們還沒(méi)有聰明到能解決整個(gè)問(wèn)題，對(duì)那些擔(dān)心快速過(guò)渡到 AI 經(jīng)濟(jì)會(huì)帶來(lái)道德風(fēng)險(xiǎn)的人來(lái)說(shuō)，或許也不需要太過(guò)擔(dān)憂(yōu)了。

與此同時(shí)，有一種觀(guān)點(diǎn)認(rèn)為，模型得分與消費(fèi)者體驗(yàn)脫節(jié)是一個(gè)不好的跡象。如果業(yè)界現(xiàn)在還搞不清楚如何衡量模型的智力，而模型大多局限于聊天機(jī)器人，那么當(dāng) AI 在管理公司或制定公共政策時(shí)，又該如何制定衡量其影響的標(biāo)準(zhǔn)呢？如果我們?cè)趯⒐采钪蟹爆嵍D難的部分委托給機(jī)器之前就陷入了古德哈特定律（當(dāng)一個(gè)政策變成目標(biāo)，它將不再是一個(gè)好的政策），我想知道原因。

AI 實(shí)驗(yàn)室是在作弊嗎？

AI 實(shí)驗(yàn)室的創(chuàng)始人們經(jīng)常認(rèn)為，他們正在進(jìn)行一場(chǎng)文明競(jìng)爭(zhēng)，以控制整個(gè)未來(lái)的光錐，如果他們成功了，世界就將會(huì)改變。指責(zé)這些創(chuàng)始人從事欺詐行為以進(jìn)一步實(shí)現(xiàn)這些目的是相當(dāng)合理的。

即使你一開(kāi)始對(duì)科技大佬的評(píng)價(jià)異常高，你也不應(yīng)該指望他們?cè)谶@場(chǎng)競(jìng)賽中成為自己模型表現(xiàn)的誠(chéng)信來(lái)源。如果你能規(guī)避懲罰，那么夸大能力或有選擇地披露有利的結(jié)果有非常強(qiáng)大的短期激勵(lì)。投資是其中之一，但吸引人才和贏(yíng)得（具有心理影響力的）聲望競(jìng)賽可能也是同樣重要的激勵(lì)因素。而且基本上沒(méi)有法律責(zé)任迫使實(shí)驗(yàn)室對(duì)基準(zhǔn)測(cè)試結(jié)果保持透明或真實(shí)，因?yàn)閺膩?lái)沒(méi)有人因?yàn)樵跍y(cè)試數(shù)據(jù)集上進(jìn)行訓(xùn)練然后向公眾報(bào)告該表現(xiàn)而被起訴或被判犯有欺詐罪。

如果你嘗試過(guò)，任何這樣的實(shí)驗(yàn)室仍然可以聲稱(chēng)自己在非常狹隘的意義上說(shuō)的是實(shí)話(huà)，因?yàn)樵撃Ｐ汀复_實(shí)在該基準(zhǔn)上實(shí)現(xiàn)了該性能」。如果對(duì)重要指標(biāo)的一階調(diào)整在技術(shù)意義上可以被視為欺詐，那么負(fù)責(zé)偽造統(tǒng)計(jì)數(shù)據(jù)的團(tuán)隊(duì)還有一百萬(wàn)種其他方式來(lái)稍微間接地處理它。

在本文的初稿中，我在上面一段后面加上了這樣一句話(huà)：「話(huà)雖如此，不可能所有收益都來(lái)自作弊，因?yàn)橐恍┗鶞?zhǔn)測(cè)試有保留數(shù)據(jù)集?！棺罱幸恍┧饺嘶鶞?zhǔn)測(cè)試，如 SEAL，似乎顯示出了改進(jìn)。但 OpenAI 和 Anthropic 發(fā)布的每一個(gè)基準(zhǔn)測(cè)試都有一個(gè)公開(kāi)的測(cè)試數(shù)據(jù)集。我能想到的唯一例外是 ARC-AGI 獎(jiǎng)，其「半私人」評(píng)估中的最高分由 o3 獲得，但盡管如此，它尚未對(duì) Claude 3.7 Sonnet、DeepSeek 或 o3-mini 進(jìn)行過(guò)公開(kāi)評(píng)估。關(guān)于 o3 本身：

所以也許沒(méi)有什么秘密：AI 實(shí)驗(yàn)室公司在撒謊，當(dāng)他們改進(jìn)基準(zhǔn)測(cè)試結(jié)果時(shí)，是因?yàn)樗麄冎耙呀?jīng)看到過(guò)答案并把它們寫(xiě)下來(lái)了。從某種意義上說(shuō)，這可能是最幸運(yùn)的答案，因?yàn)檫@意味著我們?cè)诤饬?AGI 性能方面其實(shí)并沒(méi)有那么糟糕；我們只是面臨著人為的欺詐。欺詐是人的問(wèn)題，而不是潛在技術(shù)困難的跡象。

我猜這在一定程度上是正確的，但并非全部。

基準(zhǔn)測(cè)試是否沒(méi)有跟蹤實(shí)用性？

假設(shè)你對(duì)一個(gè)人的唯一了解是他們?cè)谌鹞臐u進(jìn)矩陣（智商測(cè)試）中得分為 160。你可以對(duì)這個(gè)人做出一些推斷：例如，RPM 得分越高，可推斷出生活條件越積極，比如職業(yè)收入很高、健康狀況很好、不會(huì)進(jìn)監(jiān)獄等等。

你可以做出這些推斷，部分原因是在測(cè)試人群中，瑞文漸進(jìn)矩陣測(cè)試的分?jǐn)?shù)可以反映人類(lèi)在相關(guān)任務(wù)上的智力能力。完成標(biāo)準(zhǔn)智商測(cè)試并獲得高分的能力不僅能讓你了解這個(gè)人的「應(yīng)試」能力，還能讓你了解這個(gè)人在工作中的表現(xiàn)如何，這個(gè)人是否做出了正確的健康決定，他們的心理健康是否良好，等等。

至關(guān)重要的是，這些相關(guān)性不必很強(qiáng)，瑞文測(cè)試才能成為有用的診斷工具?；颊卟粫?huì)接受智商測(cè)試訓(xùn)練，而且人類(lèi)大腦的設(shè)計(jì)也并非是為了在 RPM 等測(cè)試中獲得高分。我們?cè)谶@些測(cè)試中的優(yōu)異表現(xiàn)（相對(duì)于其他物種而言）是過(guò)去 5 萬(wàn)年中偶然發(fā)生的事情，因?yàn)檫M(jìn)化間接地讓我們能夠追蹤動(dòng)物、灌溉莊稼和贏(yíng)得戰(zhàn)爭(zhēng)。

然而在大模型領(lǐng)域，除了幾個(gè)明顯的例外，我們幾乎所有的基準(zhǔn)測(cè)試都具有標(biāo)準(zhǔn)化測(cè)試的外觀(guān)和感覺(jué)。我的意思是，每一個(gè)都是一系列學(xué)術(shù)難題或軟件工程挑戰(zhàn)，每個(gè)挑戰(zhàn)你都可以在不到幾百個(gè) token 的時(shí)間內(nèi)消化并解決。也許這只是因?yàn)檫@些測(cè)試評(píng)估起來(lái)更快，但人們似乎理所當(dāng)然地認(rèn)為，能夠獲得 IMO 金牌的 AI 模型將具有與陶哲軒相同的能力。因此，「人類(lèi)的最后考試」（ENIGMAEVAL）不是對(duì)模型完成 Upwork 任務(wù)、完成視頻游戲或組織軍事行動(dòng)的能力的測(cè)試，而是一個(gè)自由反應(yīng)測(cè)驗(yàn)。

我不會(huì)做任何「人類(lèi)的最后考試」的測(cè)試問(wèn)題，但我今天愿意打賭，第一個(gè)拿到滿(mǎn)分的大模型仍然無(wú)法作為軟件工程師就業(yè)。 HLE 和類(lèi)似的基準(zhǔn)測(cè)試很酷，但它們無(wú)法測(cè)試語(yǔ)言模型的主要缺陷，比如它們只能像小商販一樣通過(guò)復(fù)述的方式來(lái)記住東西。Claude Plays Pokemon 是一個(gè)被過(guò)度使用的例子，因?yàn)橐曨l游戲涉及許多人類(lèi)特定能力的綜合。這項(xiàng)任務(wù)適合于偶爾回憶 30 分鐘前學(xué)到的東西，結(jié)果不出所料地糟糕。

就我個(gè)人而言，當(dāng)我想了解未來(lái)能力的改進(jìn)時(shí)，我將幾乎只關(guān)注 Claude Plays Pokemon 這樣的基準(zhǔn)測(cè)試。我仍然會(huì)查看 SEAL 排行榜，看看它在說(shuō)什么，但我的 AI 時(shí)間表的決定因素將是我在 Cursor 中的個(gè)人經(jīng)歷，以及 LLM 處理類(lèi)似你要求員工執(zhí)行的長(zhǎng)期任務(wù)的能力，其他的一切都太過(guò)嘈雜。

這些模型或許已經(jīng)很智能，但在對(duì)齊方面存在瓶頸？

在介紹下一點(diǎn)之前，讓我先介紹一下我們的業(yè)務(wù)背景。

正如我所提到的，我的公司使用這些模型來(lái)掃描軟件代碼庫(kù)以查找安全問(wèn)題。從事這個(gè)特定問(wèn)題領(lǐng)域（維護(hù)已交付軟件的安全性）工作的人被稱(chēng)為 AppSec 工程師。

事實(shí)上，大多數(shù)大公司的 AppSec 工程師都有很多代碼需要保護(hù)。他們的工作過(guò)度，典型要回答的問(wèn)題不是「我如何確保這個(gè)應(yīng)用程序沒(méi)有漏洞」，而是「我如何管理、篩選和解決我們 8000 條產(chǎn)品線(xiàn)中已經(jīng)存在的大量安全問(wèn)題」。

如果他們收到一條警報(bào)，他們希望它影響活躍的、理想情況下可通過(guò)互聯(lián)網(wǎng)訪(fǎng)問(wèn)的生產(chǎn)服務(wù)。任何低于這個(gè)水平的情況都意味著要么有太多結(jié)果需要審查，要么安全團(tuán)隊(duì)是在浪費(fèi)有限的溝通資源來(lái)要求開(kāi)發(fā)人員修復(fù)甚至可能沒(méi)有影響的問(wèn)題。

因此，我們自然會(huì)嘗試構(gòu)建我們的應(yīng)用程序，以便它只報(bào)告影響活躍的、理想情況下可通過(guò)互聯(lián)網(wǎng)訪(fǎng)問(wèn)的生產(chǎn)服務(wù)的問(wèn)題。但是，如果你只是向聊天模型解釋這些限制，它們會(huì)偶爾遵循人的指示。例如，如果你告訴他們檢查一段代碼是否存在安全問(wèn)題，他們傾向于像你是剛剛在 ChatGPT UI 中詢(xún)問(wèn)該代碼的開(kāi)發(fā)人員一樣做出回應(yīng)，因此會(huì)推測(cè)代碼有問(wèn)題或險(xiǎn)些失誤。即使你提供了我剛剛概述的情況的完整書(shū)面描述，幾乎每個(gè)公共模型都會(huì)忽略你的情況，并將無(wú)法利用的 SQL 查詢(xún)連接報(bào)告為「危險(xiǎn)」。

這并不是說(shuō) AI 模型認(rèn)為它遵循了你的指示，但實(shí)際上并沒(méi)有。LLM 實(shí)際上會(huì)在簡(jiǎn)單的應(yīng)用程序中說(shuō)，它報(bào)告的是一個(gè)「潛在」問(wèn)題，并且可能無(wú)法驗(yàn)證。我認(rèn)為發(fā)生的情況是，大型語(yǔ)言模型被訓(xùn)練成在與用戶(hù)的實(shí)時(shí)對(duì)話(huà)中「看起來(lái)很聰明」，因此它們更喜歡突出顯示可能的問(wèn)題，而不是確認(rèn)代碼看起來(lái)不錯(cuò)，就像人類(lèi)想要演得很聰明時(shí)所做的那樣。

每個(gè) LLM 應(yīng)用初創(chuàng)公司都會(huì)遇到這樣的限制。當(dāng)你是一個(gè)直接與聊天模型交互的人時(shí)，阿諛?lè)畛泻驮庌q只是小麻煩，甚至也是能適應(yīng)的。當(dāng)你是一個(gè)團(tuán)隊(duì)試圖將這些模型組合成更大的系統(tǒng)時(shí)（由于前面提到的內(nèi)存問(wèn)題，這是必要的），想要看起來(lái)不錯(cuò)會(huì)引發(fā)嚴(yán)重的問(wèn)題。更智能的模型可能會(huì)解決這個(gè)問(wèn)題，但它們也可能使問(wèn)題更難檢測(cè)，特別是當(dāng)它們?nèi)〈南到y(tǒng)變得更加復(fù)雜并且更難驗(yàn)證輸出時(shí)。

有很多不同的方法來(lái)克服這些缺陷。在有人想出解決問(wèn)題的外在表現(xiàn)之前，我們完全有可能無(wú)法解決核心問(wèn)題。

我認(rèn)為這樣做是一個(gè)錯(cuò)誤。這些 AI 機(jī)器很快就會(huì)成為我們生活的社會(huì)的跳動(dòng)的心臟。它們?cè)诮M合和互動(dòng)時(shí)創(chuàng)造的社會(huì)和政治結(jié)構(gòu)將定義我們周?chē)吹降囊磺?。更重要的是，它們要盡可能地有道德。

https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.