聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
大模型做數(shù)獨,總體正確率只有15%???
繼出場自帶十篇完整學(xué)術(shù)論文的史上首個“AI科學(xué)家”之后,Transformer作者Llion Jones又帶著他的創(chuàng)業(yè)公司Sakana AI來搞事情了。
這次,Sakana AI公布了一個AI模型解決數(shù)獨問題能力的排行榜
問題集是該公司推出的全新基準Sudoku-Bench,包含了從簡單的4x4到復(fù)雜的9x9現(xiàn)代數(shù)獨問題,旨在考驗大模型創(chuàng)造性推理能力
榜單顯示,大模型不僅總體正確率只有15%,在9×9的現(xiàn)代數(shù)獨中,即使是高性能模型o3 Mini High,正確率也只有2.9%。
Sudoku-Bench項目在2025NVIDIA GTC開發(fā)者大會上進行了展示。
NVIDIA首席執(zhí)行官黃仁勛對此評價:
- 像數(shù)獨這樣的謎題將有助于提高AI的推理能力。
Sudoku-Bench全新基準測試
Sudoku-Bench是Sakana AI在今年3月發(fā)布的一項由不同難度級別的數(shù)獨謎題組成的基準測試,用于衡量人工智能的多層次和創(chuàng)造性推理能力。
1、現(xiàn)有問題:大模型的 “記憶依賴癥”
目前大多數(shù)推理基準測試存在一個缺陷:大模型往往通過記憶標準答案或固定模式來完成任務(wù),而不是真正運用邏輯推理能力
當(dāng)遇到與訓(xùn)練數(shù)據(jù)中 “類似” 的問題時,模型會直接套用記憶中的解決方案,而非通過邏輯推導(dǎo)得出答案。
對于全新規(guī)則或未見過的模式,模型往往無法有效應(yīng)對,因為缺乏可直接匹配的記憶模板。
傳統(tǒng)數(shù)獨游戲?qū)Υ竽P蛠碚f可能已經(jīng) “太簡單”,它們可能只是記住了套路,而不是學(xué)會如何創(chuàng)造性地解決新問題。
2、解決方案:Sudoku-Bench用 “變異數(shù)獨” 考倒大模型
近年來,各種各樣具有獨特規(guī)則的衍生謎題出現(xiàn)。
這些“變異數(shù)獨”謎題需要多步驟和創(chuàng)造性的推理技巧,但只有一個正確答案,特點是無法通過記憶解決,必須通過多步邏輯推理找到 “突破口”
這些特點使得“變異數(shù)獨”成為測試AI推理能力的理想選擇。
以下就是一個“變異數(shù)獨”示例,你不僅需要遵循原始規(guī)則,而且沿著彩色線條排列的數(shù)字還需要遵循額外的規(guī)則。
Sudoku-Bench基準包括傳統(tǒng)和現(xiàn)代數(shù)獨(變異數(shù)獨)問題,難度分級,從當(dāng)前模型可以解決的簡單問題到甚至最先進的推理模型也無法處理的極其困難的問題。
Sudoku-Bench還包含了由Nikoli(日本著名的數(shù)獨公司,數(shù)獨正是其名稱的由來)提供的100道手工數(shù)獨題
3、大模型的 “慘敗”:基線實驗結(jié)果
在今年3月該基準發(fā)布后,研究人員測試了多個AI模型,包括Gemini 2.5 Pro、GPT-4.1、Claude 3.7等在內(nèi)的最先進大模型。
為了給模型一個公平的機會,團隊為模型提供了部分完成的謎題,并評估它們完成謎題的能力。
結(jié)果顯示,一些模型在這種輔助下表現(xiàn)得相當(dāng)不錯,但關(guān)鍵結(jié)果在于最后兩列。
即使是最先進的模型,平均連一個正確的數(shù)字都放不下,而OpenAI最新的推理模型ChatGPT o3是唯一能夠解決基準測試中所有謎題的模型。
最新的排行榜顯示:
- 無工具輔助時,所有模型在100個謎題中的總體正確率低于15%
- 小網(wǎng)格(4x4)表現(xiàn)稍好(40%-73% 正確率),但9x9網(wǎng)格幾乎全敗,正確率接近0%,即使是高性能模型“o3 Mini High”的正確率也只有2.9%。
- 模型常犯錯誤包括:錯誤解答、放棄解題、誤判規(guī)則矛盾,尤其是面對需要 “突破口” 的謎題時,只會盲目猜測,無法像人類一樣通過邏輯鏈縮小搜索范圍。
測試團隊詳細列出了模型在每個謎題上的表現(xiàn),感興趣的朋友可戳文末鏈接查看~
關(guān)于Sakana AI
Sakana AI由前谷歌研究人員Llion Jones(Transformer作者之一)和David Ha于2023 年7月在東京成立,主要對生成文本和圖像的AI基本模型進行研究。
此前,該公司開源發(fā)布了AI科學(xué)家AI審稿人,前者一出場就獨自完成了十篇完整的學(xué)術(shù)論文,包括但不限于擴散模型方向、Transformer與強化學(xué)習(xí)等,引起了不小的轟動。
后者能對AI寫的論文進行評審,提供改進意見,主打“以我之矛攻我之盾”。
該公司還發(fā)布了一種名為“連續(xù)思維機器 (CTM)”的新型AI模型,通過像人類一樣“逐步”思考并學(xué)習(xí)世界的內(nèi)部模型,超越了簡單的模式識別,并獲得了逐步解決迷宮等復(fù)雜問題的能力。
Sakana AI還與Cracking The Cryptic(YouTube 上最大的謎題評論頻道之一)合作,Cracking The Cryptic每天都會演示一些世界上最好的數(shù)獨謎題的邏輯解決方案。
Sakana AI獲得了這些視頻的文字記錄以及答題過程中采取的行動數(shù)據(jù)。這些數(shù)據(jù)可以作為訓(xùn)練AI推理模型的理想數(shù)據(jù),并與Sudoku-Bench一起發(fā)布。
著名的數(shù)獨出題人Marty Sears還為Sakana AI定制了一款名為“奇偶魚”的數(shù)獨游戲:沿著Sakana AI紅色標志線相鄰的任何數(shù)字都必須包含一個偶數(shù)和一個奇數(shù)。
感興趣的朋友可以嘗試一下(解答過程已附在文末)~
技術(shù)報告:https://arxiv.org/abs/2505.16135
排行榜:https://pub.sakana.ai/sudoku/
Github:https://github.com/SakanaAI/Sudoku-Bench
奇偶魚題目:https://sudokupad.app/wsj7iunsg6
解答過程:https://www.youtube.com/watch?v=JdHSSNKuIzU
[1]https://x.com/SakanaAILabs/status/1926905826465161629
[2]https://sakana.ai/sudoku-bench/
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.