選自L(fǎng)esswrong
作者:lc機(jī)器之心編譯編輯:澤南、張倩
Llama 4 或許只是冰山一角。
「AI 大模型自去年 8 月以來(lái)就沒(méi)有太大進(jìn)步」。這是一位 AI 創(chuàng)業(yè)者在近期的一篇博客中發(fā)表的觀(guān)點(diǎn)。
他在創(chuàng)業(yè)過(guò)程中發(fā)現(xiàn),自去年 8 月以來(lái),AI 大模型(如 Claude 3.7 等)在官方發(fā)布的基準(zhǔn)測(cè)試上聲稱(chēng)的巨大進(jìn)步與實(shí)際應(yīng)用場(chǎng)景中的有限提升之間存在明顯脫節(jié)。這導(dǎo)致他們無(wú)法借助模型能力來(lái)提升產(chǎn)品體驗(yàn)。很多 YC 創(chuàng)業(yè)者也有類(lèi)似的體驗(yàn)。
作者認(rèn)為,這其中可能的原因包括基準(zhǔn)測(cè)試作弊、基準(zhǔn)無(wú)法衡量實(shí)用性或模型實(shí)際很聰明但對(duì)齊存在瓶頸。如果不解決這些基礎(chǔ)問(wèn)題,AI 系統(tǒng)可能會(huì)在表面上顯得很聰明,但在組合成社會(huì)系統(tǒng)時(shí)會(huì)出現(xiàn)根本問(wèn)題。
以下是博客原文:
模型得分與消費(fèi)者體驗(yàn)脫節(jié)
大約九個(gè)月前,我和三個(gè)朋友認(rèn)為人工智能已經(jīng)足夠好,可以自主監(jiān)控大型代碼庫(kù)的安全問(wèn)題了。我們圍繞這個(gè)任務(wù)成立了一家公司,試圖利用最新的大模型能力來(lái)創(chuàng)建一種工具,用以取代至少很大一部分滲透測(cè)試人員的價(jià)值。我們從 2024 年 6 月開(kāi)始從事這個(gè)項(xiàng)目。
在公司成立后的頭三個(gè)月內(nèi),Anthropic 的 Claude 3.5 sonnet 就發(fā)布了。只需切換在 GPT-4o 上運(yùn)行的服務(wù)部分,我們剛剛起步的內(nèi)部基準(zhǔn)測(cè)試結(jié)果就會(huì)立即開(kāi)始飽和。我記得當(dāng)時(shí)很驚訝,我們的工具不僅似乎犯的基本錯(cuò)誤更少,而且其書(shū)面漏洞描述和嚴(yán)重性估計(jì)似乎也有了質(zhì)的提高。就好像即使是在不完整的信息中,這些模型也能更善于推斷人類(lèi)提示背后的意圖和價(jià)值。
事實(shí)上,安全研究基本上沒(méi)有公開(kāi)的基準(zhǔn)。有「網(wǎng)絡(luò)安全」評(píng)估會(huì)向 AI 模型詢(xún)問(wèn)有關(guān)孤立代碼塊的問(wèn)題,「CTF」評(píng)估會(huì)為模型提供明確的挑戰(zhàn)描述和對(duì) <1kLOC Web 應(yīng)用程序的 shell 訪(fǎng)問(wèn)權(quán)限。但沒(méi)有什么能觸及 LLM 應(yīng)用程序滲透測(cè)試的難點(diǎn) —— 一是瀏覽一個(gè)太大而無(wú)法放在上下文中的真實(shí)代碼庫(kù);二是推斷目標(biāo)應(yīng)用程序的安全模型;三是深入理解其實(shí)現(xiàn),以了解該安全模型在哪里出現(xiàn)了問(wèn)題。
出于這些原因,我認(rèn)為漏洞識(shí)別任務(wù)是衡量 LLM 在狹窄的軟件工程領(lǐng)域之外的泛化性的一個(gè)很好的試金石。
自 3.5-sonnet 以來(lái),我們一直在監(jiān)控 AI 大模型的發(fā)布,并嘗試過(guò)幾乎每個(gè)聲稱(chēng)有所改進(jìn)的主要新版本。令人意想不到的是,除了 3.6 的小幅提升和 3.7 的更小提升外,我們嘗試的所有新模型都沒(méi)有對(duì)我們的內(nèi)部基準(zhǔn)或開(kāi)發(fā)人員發(fā)現(xiàn)新錯(cuò)誤的能力產(chǎn)生重大影響。這包括新的測(cè)試時(shí)間計(jì)算 OpenAI 模型。
起初我很緊張,不敢公開(kāi)報(bào)告此事,因?yàn)槲艺J(rèn)為這可能會(huì)對(duì)我們團(tuán)隊(duì)產(chǎn)生不良影響。自去年 8 月以來(lái),我們的掃描有了很大的改進(jìn),但這是因?yàn)槌R?guī)工程,而不是模型改進(jìn)的提升。這可能是我們?cè)O(shè)計(jì)的架構(gòu)存在問(wèn)題,隨著 SWE-Bench 分?jǐn)?shù)的上升,我們并沒(méi)有獲得更多的進(jìn)展。
但最近幾個(gè)月,我與其他從事 AI 應(yīng)用初創(chuàng)企業(yè)的 YC 創(chuàng)始人進(jìn)行了交談,他們中的大多數(shù)人都有相同的經(jīng)歷:1. 見(jiàn)證了 o99-pro-ultra 大模型發(fā)布,2. 基準(zhǔn)測(cè)試看起來(lái)不錯(cuò),3. 實(shí)際應(yīng)用評(píng)估表現(xiàn)平平。盡管我們從事不同的行業(yè),處理不同的問(wèn)題,但情況大致相同。有時(shí)創(chuàng)始人會(huì)對(duì)這種說(shuō)法做出回應(yīng)(「我們只是沒(méi)有任何博士級(jí)的問(wèn)題可以問(wèn)」),但這種說(shuō)法是存在的。
我讀過(guò)這些研究,也看過(guò)這些數(shù)字。也許與大模型的交談變得更有趣了,也許他們?cè)谑芸乜荚囍斜憩F(xiàn)得更好了。但我仍然想根據(jù)內(nèi)部基準(zhǔn)以及我自己和同事們使用這些模型的看法提出觀(guān)點(diǎn):大模型公司向公眾報(bào)告的任何提升都不能反映經(jīng)濟(jì)實(shí)用性或普遍性。它們不能反映我或我客戶(hù)的實(shí)際體驗(yàn)。就能夠執(zhí)行全新的任務(wù)或更大比例的用戶(hù)智力勞動(dòng)而言,我認(rèn)為自去年 8 月以來(lái)它們就沒(méi)有太大進(jìn)步了。
如果你是大模型競(jìng)品公司的工程師,這或許是個(gè)好消息!對(duì)我個(gè)人而言,作為一個(gè)試圖利用大模型能力賺錢(qián)的人,它們還沒(méi)有聰明到能解決整個(gè)問(wèn)題,對(duì)那些擔(dān)心快速過(guò)渡到 AI 經(jīng)濟(jì)會(huì)帶來(lái)道德風(fēng)險(xiǎn)的人來(lái)說(shuō),或許也不需要太過(guò)擔(dān)憂(yōu)了。
與此同時(shí),有一種觀(guān)點(diǎn)認(rèn)為,模型得分與消費(fèi)者體驗(yàn)脫節(jié)是一個(gè)不好的跡象。如果業(yè)界現(xiàn)在還搞不清楚如何衡量模型的智力,而模型大多局限于聊天機(jī)器人,那么當(dāng) AI 在管理公司或制定公共政策時(shí),又該如何制定衡量其影響的標(biāo)準(zhǔn)呢?如果我們?cè)趯⒐采钪蟹爆嵍D難的部分委托給機(jī)器之前就陷入了古德哈特定律(當(dāng)一個(gè)政策變成目標(biāo),它將不再是一個(gè)好的政策),我想知道原因。
AI 實(shí)驗(yàn)室是在作弊嗎?
AI 實(shí)驗(yàn)室的創(chuàng)始人們經(jīng)常認(rèn)為,他們正在進(jìn)行一場(chǎng)文明競(jìng)爭(zhēng),以控制整個(gè)未來(lái)的光錐,如果他們成功了,世界就將會(huì)改變。指責(zé)這些創(chuàng)始人從事欺詐行為以進(jìn)一步實(shí)現(xiàn)這些目的是相當(dāng)合理的。
即使你一開(kāi)始對(duì)科技大佬的評(píng)價(jià)異常高,你也不應(yīng)該指望他們?cè)谶@場(chǎng)競(jìng)賽中成為自己模型表現(xiàn)的誠(chéng)信來(lái)源。如果你能規(guī)避懲罰,那么夸大能力或有選擇地披露有利的結(jié)果有非常強(qiáng)大的短期激勵(lì)。投資是其中之一,但吸引人才和贏(yíng)得(具有心理影響力的)聲望競(jìng)賽可能也是同樣重要的激勵(lì)因素。而且基本上沒(méi)有法律責(zé)任迫使實(shí)驗(yàn)室對(duì)基準(zhǔn)測(cè)試結(jié)果保持透明或真實(shí),因?yàn)閺膩?lái)沒(méi)有人因?yàn)樵跍y(cè)試數(shù)據(jù)集上進(jìn)行訓(xùn)練然后向公眾報(bào)告該表現(xiàn)而被起訴或被判犯有欺詐罪。
如果你嘗試過(guò),任何這樣的實(shí)驗(yàn)室仍然可以聲稱(chēng)自己在非常狹隘的意義上說(shuō)的是實(shí)話(huà),因?yàn)樵撃P汀复_實(shí)在該基準(zhǔn)上實(shí)現(xiàn)了該性能」。如果對(duì)重要指標(biāo)的一階調(diào)整在技術(shù)意義上可以被視為欺詐,那么負(fù)責(zé)偽造統(tǒng)計(jì)數(shù)據(jù)的團(tuán)隊(duì)還有一百萬(wàn)種其他方式來(lái)稍微間接地處理它。
在本文的初稿中,我在上面一段后面加上了這樣一句話(huà):「話(huà)雖如此,不可能所有收益都來(lái)自作弊,因?yàn)橐恍┗鶞?zhǔn)測(cè)試有保留數(shù)據(jù)集?!棺罱幸恍┧饺嘶鶞?zhǔn)測(cè)試,如 SEAL,似乎顯示出了改進(jìn)。但 OpenAI 和 Anthropic 發(fā)布的每一個(gè)基準(zhǔn)測(cè)試都有一個(gè)公開(kāi)的測(cè)試數(shù)據(jù)集。我能想到的唯一例外是 ARC-AGI 獎(jiǎng),其「半私人」評(píng)估中的最高分由 o3 獲得,但盡管如此,它尚未對(duì) Claude 3.7 Sonnet、DeepSeek 或 o3-mini 進(jìn)行過(guò)公開(kāi)評(píng)估。關(guān)于 o3 本身:
所以也許沒(méi)有什么秘密:AI 實(shí)驗(yàn)室公司在撒謊,當(dāng)他們改進(jìn)基準(zhǔn)測(cè)試結(jié)果時(shí),是因?yàn)樗麄冎耙呀?jīng)看到過(guò)答案并把它們寫(xiě)下來(lái)了。從某種意義上說(shuō),這可能是最幸運(yùn)的答案,因?yàn)檫@意味著我們?cè)诤饬?AGI 性能方面其實(shí)并沒(méi)有那么糟糕;我們只是面臨著人為的欺詐。欺詐是人的問(wèn)題,而不是潛在技術(shù)困難的跡象。
我猜這在一定程度上是正確的,但并非全部。
基準(zhǔn)測(cè)試是否沒(méi)有跟蹤實(shí)用性?
假設(shè)你對(duì)一個(gè)人的唯一了解是他們?cè)谌鹞臐u進(jìn)矩陣(智商測(cè)試)中得分為 160。你可以對(duì)這個(gè)人做出一些推斷:例如,RPM 得分越高,可推斷出生活條件越積極,比如職業(yè)收入很高、健康狀況很好、不會(huì)進(jìn)監(jiān)獄等等。
你可以做出這些推斷,部分原因是在測(cè)試人群中,瑞文漸進(jìn)矩陣測(cè)試的分?jǐn)?shù)可以反映人類(lèi)在相關(guān)任務(wù)上的智力能力。完成標(biāo)準(zhǔn)智商測(cè)試并獲得高分的能力不僅能讓你了解這個(gè)人的「應(yīng)試」能力,還能讓你了解這個(gè)人在工作中的表現(xiàn)如何,這個(gè)人是否做出了正確的健康決定,他們的心理健康是否良好,等等。
至關(guān)重要的是,這些相關(guān)性不必很強(qiáng),瑞文測(cè)試才能成為有用的診斷工具?;颊卟粫?huì)接受智商測(cè)試訓(xùn)練,而且人類(lèi)大腦的設(shè)計(jì)也并非是為了在 RPM 等測(cè)試中獲得高分。我們?cè)谶@些測(cè)試中的優(yōu)異表現(xiàn)(相對(duì)于其他物種而言)是過(guò)去 5 萬(wàn)年中偶然發(fā)生的事情,因?yàn)檫M(jìn)化間接地讓我們能夠追蹤動(dòng)物、灌溉莊稼和贏(yíng)得戰(zhàn)爭(zhēng)。
然而在大模型領(lǐng)域,除了幾個(gè)明顯的例外,我們幾乎所有的基準(zhǔn)測(cè)試都具有標(biāo)準(zhǔn)化測(cè)試的外觀(guān)和感覺(jué)。我的意思是,每一個(gè)都是一系列學(xué)術(shù)難題或軟件工程挑戰(zhàn),每個(gè)挑戰(zhàn)你都可以在不到幾百個(gè) token 的時(shí)間內(nèi)消化并解決。也許這只是因?yàn)檫@些測(cè)試評(píng)估起來(lái)更快,但人們似乎理所當(dāng)然地認(rèn)為,能夠獲得 IMO 金牌的 AI 模型將具有與陶哲軒相同的能力。因此,「人類(lèi)的最后考試」(ENIGMAEVAL)不是對(duì)模型完成 Upwork 任務(wù)、完成視頻游戲或組織軍事行動(dòng)的能力的測(cè)試,而是一個(gè)自由反應(yīng)測(cè)驗(yàn)。
我不會(huì)做任何「人類(lèi)的最后考試」的測(cè)試問(wèn)題,但我今天愿意打賭,第一個(gè)拿到滿(mǎn)分的大模型仍然無(wú)法作為軟件工程師就業(yè)。 HLE 和類(lèi)似的基準(zhǔn)測(cè)試很酷,但它們無(wú)法測(cè)試語(yǔ)言模型的主要缺陷,比如它們只能像小商販一樣通過(guò)復(fù)述的方式來(lái)記住東西。Claude Plays Pokemon 是一個(gè)被過(guò)度使用的例子,因?yàn)橐曨l游戲涉及許多人類(lèi)特定能力的綜合。這項(xiàng)任務(wù)適合于偶爾回憶 30 分鐘前學(xué)到的東西,結(jié)果不出所料地糟糕。
就我個(gè)人而言,當(dāng)我想了解未來(lái)能力的改進(jìn)時(shí),我將幾乎只關(guān)注 Claude Plays Pokemon 這樣的基準(zhǔn)測(cè)試。我仍然會(huì)查看 SEAL 排行榜,看看它在說(shuō)什么,但我的 AI 時(shí)間表的決定因素將是我在 Cursor 中的個(gè)人經(jīng)歷,以及 LLM 處理類(lèi)似你要求員工執(zhí)行的長(zhǎng)期任務(wù)的能力,其他的一切都太過(guò)嘈雜。
這些模型或許已經(jīng)很智能,但在對(duì)齊方面存在瓶頸?
在介紹下一點(diǎn)之前,讓我先介紹一下我們的業(yè)務(wù)背景。
正如我所提到的,我的公司使用這些模型來(lái)掃描軟件代碼庫(kù)以查找安全問(wèn)題。從事這個(gè)特定問(wèn)題領(lǐng)域(維護(hù)已交付軟件的安全性)工作的人被稱(chēng)為 AppSec 工程師。
事實(shí)上,大多數(shù)大公司的 AppSec 工程師都有很多代碼需要保護(hù)。他們的工作過(guò)度,典型要回答的問(wèn)題不是「我如何確保這個(gè)應(yīng)用程序沒(méi)有漏洞」,而是「我如何管理、篩選和解決我們 8000 條產(chǎn)品線(xiàn)中已經(jīng)存在的大量安全問(wèn)題」。
如果他們收到一條警報(bào),他們希望它影響活躍的、理想情況下可通過(guò)互聯(lián)網(wǎng)訪(fǎng)問(wèn)的生產(chǎn)服務(wù)。任何低于這個(gè)水平的情況都意味著要么有太多結(jié)果需要審查,要么安全團(tuán)隊(duì)是在浪費(fèi)有限的溝通資源來(lái)要求開(kāi)發(fā)人員修復(fù)甚至可能沒(méi)有影響的問(wèn)題。
因此,我們自然會(huì)嘗試構(gòu)建我們的應(yīng)用程序,以便它只報(bào)告影響活躍的、理想情況下可通過(guò)互聯(lián)網(wǎng)訪(fǎng)問(wèn)的生產(chǎn)服務(wù)的問(wèn)題。但是,如果你只是向聊天模型解釋這些限制,它們會(huì)偶爾遵循人的指示。例如,如果你告訴他們檢查一段代碼是否存在安全問(wèn)題,他們傾向于像你是剛剛在 ChatGPT UI 中詢(xún)問(wèn)該代碼的開(kāi)發(fā)人員一樣做出回應(yīng),因此會(huì)推測(cè)代碼有問(wèn)題或險(xiǎn)些失誤。即使你提供了我剛剛概述的情況的完整書(shū)面描述,幾乎每個(gè)公共模型都會(huì)忽略你的情況,并將無(wú)法利用的 SQL 查詢(xún)連接報(bào)告為「危險(xiǎn)」。
這并不是說(shuō) AI 模型認(rèn)為它遵循了你的指示,但實(shí)際上并沒(méi)有。LLM 實(shí)際上會(huì)在簡(jiǎn)單的應(yīng)用程序中說(shuō),它報(bào)告的是一個(gè)「潛在」問(wèn)題,并且可能無(wú)法驗(yàn)證。我認(rèn)為發(fā)生的情況是,大型語(yǔ)言模型被訓(xùn)練成在與用戶(hù)的實(shí)時(shí)對(duì)話(huà)中「看起來(lái)很聰明」,因此它們更喜歡突出顯示可能的問(wèn)題,而不是確認(rèn)代碼看起來(lái)不錯(cuò),就像人類(lèi)想要演得很聰明時(shí)所做的那樣。
每個(gè) LLM 應(yīng)用初創(chuàng)公司都會(huì)遇到這樣的限制。當(dāng)你是一個(gè)直接與聊天模型交互的人時(shí),阿諛?lè)畛泻驮庌q只是小麻煩,甚至也是能適應(yīng)的。當(dāng)你是一個(gè)團(tuán)隊(duì)試圖將這些模型組合成更大的系統(tǒng)時(shí)(由于前面提到的內(nèi)存問(wèn)題,這是必要的),想要看起來(lái)不錯(cuò)會(huì)引發(fā)嚴(yán)重的問(wèn)題。更智能的模型可能會(huì)解決這個(gè)問(wèn)題,但它們也可能使問(wèn)題更難檢測(cè),特別是當(dāng)它們?nèi)〈南到y(tǒng)變得更加復(fù)雜并且更難驗(yàn)證輸出時(shí)。
有很多不同的方法來(lái)克服這些缺陷。在有人想出解決問(wèn)題的外在表現(xiàn)之前,我們完全有可能無(wú)法解決核心問(wèn)題。
我認(rèn)為這樣做是一個(gè)錯(cuò)誤。這些 AI 機(jī)器很快就會(huì)成為我們生活的社會(huì)的跳動(dòng)的心臟。它們?cè)诮M合和互動(dòng)時(shí)創(chuàng)造的社會(huì)和政治結(jié)構(gòu)將定義我們周?chē)吹降囊磺?。更重要的是,它們要盡可能地有道德。
https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.