99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型玩不好數獨?排行榜:o3 Mini High變異數獨正確率僅2.9%

0
分享至

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

大模型做數獨,總體正確率只有15%???



繼出場自帶十篇完整學術論文的史上首個“AI科學家”之后,Transformer作者Llion Jones又帶著他的創業公司Sakana AI來搞事情了。

這次,Sakana AI公布了一個AI模型解決數獨問題能力的排行榜

問題集是該公司推出的全新基準Sudoku-Bench,包含了從簡單的4x4到復雜的9x9現代數獨問題,旨在考驗大模型創造性推理能力

榜單顯示,大模型不僅總體正確率只有15%,在9×9的現代數獨中,即使是高性能模型o3 Mini High,正確率也只有2.9%。



Sudoku-Bench項目在2025NVIDIA GTC開發者大會上進行了展示。

NVIDIA首席執行官黃仁勛對此評價:

  • 像數獨這樣的謎題將有助于提高AI的推理能力。



Sudoku-Bench全新基準測試

Sudoku-Bench是Sakana AI在今年3月發布的一項由不同難度級別的數獨謎題組成的基準測試,用于衡量人工智能的多層次和創造性推理能力。

1、現有問題:大模型的 “記憶依賴癥”

目前大多數推理基準測試存在一個缺陷:大模型往往通過記憶標準答案或固定模式來完成任務,而不是真正運用邏輯推理能力

當遇到與訓練數據中 “類似” 的問題時,模型會直接套用記憶中的解決方案,而非通過邏輯推導得出答案。

對于全新規則或未見過的模式,模型往往無法有效應對,因為缺乏可直接匹配的記憶模板。

傳統數獨游戲對大模型來說可能已經 “太簡單”,它們可能只是記住了套路,而不是學會如何創造性地解決新問題。

2、解決方案:Sudoku-Bench用 “變異數獨” 考倒大模型

近年來,各種各樣具有獨特規則的衍生謎題出現。

這些“變異數獨”謎題需要多步驟和創造性的推理技巧,但只有一個正確答案,特點是無法通過記憶解決,必須通過多步邏輯推理找到 “突破口”

這些特點使得“變異數獨”成為測試AI推理能力的理想選擇。

以下就是一個“變異數獨”示例,你不僅需要遵循原始規則,而且沿著彩色線條排列的數字還需要遵循額外的規則。



Sudoku-Bench基準包括傳統和現代數獨(變異數獨)問題,難度分級,從當前模型可以解決的簡單問題到甚至最先進的推理模型也無法處理的極其困難的問題。



Sudoku-Bench還包含了由Nikoli(日本著名的數獨公司,數獨正是其名稱的由來)提供的100道手工數獨題



3、大模型的 “慘敗”:基線實驗結果

在今年3月該基準發布后,研究人員測試了多個AI模型,包括Gemini 2.5 Pro、GPT-4.1、Claude 3.7等在內的最先進大模型。

為了給模型一個公平的機會,團隊為模型提供了部分完成的謎題,并評估它們完成謎題的能力。



結果顯示,一些模型在這種輔助下表現得相當不錯,但關鍵結果在于最后兩列。

即使是最先進的模型,平均連一個正確的數字都放不下,而OpenAI最新的推理模型ChatGPT o3是唯一能夠解決基準測試中所有謎題的模型。

最新的排行榜顯示:

  • 無工具輔助時,所有模型在100個謎題中的總體正確率低于15%
  • 小網格(4x4)表現稍好(40%-73% 正確率),但9x9網格幾乎全敗,正確率接近0%,即使是高性能模型“o3 Mini High”的正確率也只有2.9%。
  • 模型常犯錯誤包括:錯誤解答、放棄解題、誤判規則矛盾,尤其是面對需要 “突破口” 的謎題時,只會盲目猜測,無法像人類一樣通過邏輯鏈縮小搜索范圍。



測試團隊詳細列出了模型在每個謎題上的表現,感興趣的朋友可戳文末鏈接查看~

關于Sakana AI

Sakana AI由前谷歌研究人員Llion Jones(Transformer作者之一)和David Ha于2023 年7月在東京成立,主要對生成文本和圖像的AI基本模型進行研究。

此前,該公司開源發布了AI科學家AI審稿人,前者一出場就獨自完成了十篇完整的學術論文,包括但不限于擴散模型方向、Transformer與強化學習等,引起了不小的轟動。

后者能對AI寫的論文進行評審,提供改進意見,主打“以我之矛攻我之盾”。



該公司還發布了一種名為“連續思維機器 (CTM)”的新型AI模型,通過像人類一樣“逐步”思考并學習世界的內部模型,超越了簡單的模式識別,并獲得了逐步解決迷宮等復雜問題的能力。

Sakana AI還與Cracking The Cryptic(YouTube 上最大的謎題評論頻道之一)合作,Cracking The Cryptic每天都會演示一些世界上最好的數獨謎題的邏輯解決方案。



Sakana AI獲得了這些視頻的文字記錄以及答題過程中采取的行動數據。這些數據可以作為訓練AI推理模型的理想數據,并與Sudoku-Bench一起發布。



著名的數獨出題人Marty Sears還為Sakana AI定制了一款名為“奇偶魚”的數獨游戲:沿著Sakana AI紅色標志線相鄰的任何數字都必須包含一個偶數和一個奇數。

感興趣的朋友可以嘗試一下(解答過程已附在文末)~



技術報告:https://arxiv.org/abs/2505.16135
排行榜:https://pub.sakana.ai/sudoku/
Github:https://github.com/SakanaAI/Sudoku-Bench
奇偶魚題目:https://sudokupad.app/wsj7iunsg6
解答過程:https://www.youtube.com/watch?v=JdHSSNKuIzU
[1]https://x.com/SakanaAILabs/status/1926905826465161629
[2]https://sakana.ai/sudoku-bench/

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美防長赫格塞斯放狠話,表示絕不會允許在特朗普任內收回臺灣!

美防長赫格塞斯放狠話,表示絕不會允許在特朗普任內收回臺灣!

大道無形我有型
2025-06-08 15:36:54
加州三名亞裔到處偷櫻桃,面臨指控

加州三名亞裔到處偷櫻桃,面臨指控

大洛杉磯LA
2025-06-08 05:52:11
與前妻再度對簿公堂,也暴露了張紀中的窘境,一把年紀了還不消停

與前妻再度對簿公堂,也暴露了張紀中的窘境,一把年紀了還不消停

動物奇奇怪怪
2025-06-08 19:46:55
奧沙利文和萊拉徹底分手,共有房產已出售!歷史第一人正搬離英國

奧沙利文和萊拉徹底分手,共有房產已出售!歷史第一人正搬離英國

世界體壇觀察家
2025-06-08 16:15:58
河南女子吃西瓜險喪命!央媒曝光、醫生警告,這種西瓜劇毒別吃

河南女子吃西瓜險喪命!央媒曝光、醫生警告,這種西瓜劇毒別吃

八斗小先生
2025-06-07 15:09:35
日本奈良收到史上最大個人捐款——整整20公斤黃金!70多歲老漢匿名捐贈~

日本奈良收到史上最大個人捐款——整整20公斤黃金!70多歲老漢匿名捐贈~

日本物語
2025-06-08 15:13:34
NBA傳聞:太陽隊凱文·杜蘭特交易談判出現重大轉折

NBA傳聞:太陽隊凱文·杜蘭特交易談判出現重大轉折

好火子
2025-06-08 22:20:25
《浪姐6》收官,4人名利雙收,3人翻紅,2人升咖,1人不如不來

《浪姐6》收官,4人名利雙收,3人翻紅,2人升咖,1人不如不來

頭號劇委會
2025-06-08 11:06:32
心理學家發現:對親人暴躁,對外人客氣的人,多半是以下4種人

心理學家發現:對親人暴躁,對外人客氣的人,多半是以下4種人

第一心理
2025-06-06 17:04:12
山西煤老板破產15年,女兒在國外突然來電:爸,倫敦的房子要賣嗎

山西煤老板破產15年,女兒在國外突然來電:爸,倫敦的房子要賣嗎

七分瘦三分肥
2025-06-04 22:10:18
雖然毛主席享年83歲,但保健醫生卻說:毛主席并不具備長壽條件

雖然毛主席享年83歲,但保健醫生卻說:毛主席并不具備長壽條件

史料布籍
2025-06-08 17:27:43
男女在酒吧親熱,不雅畫面流出,女方正面照曝光,一細節信息量大

男女在酒吧親熱,不雅畫面流出,女方正面照曝光,一細節信息量大

博士觀察
2025-06-08 19:22:07
李嘉誠說:“只有窮人,才會癡迷技術,只有笨人,才會先把事做好

李嘉誠說:“只有窮人,才會癡迷技術,只有笨人,才會先把事做好

伊人河畔
2025-06-08 11:05:34
吳簽在里面不老實?

吳簽在里面不老實?

毒舌扒姨太
2025-06-07 22:33:54
看不下去!丹麥記者吐槽霍伊倫:出場65分鐘不如替補球員30秒

看不下去!丹麥記者吐槽霍伊倫:出場65分鐘不如替補球員30秒

直播吧
2025-06-08 20:52:09
我幫村里寡婦通下水道,她卻羞紅臉說:還有個下水道也需要你幫忙

我幫村里寡婦通下水道,她卻羞紅臉說:還有個下水道也需要你幫忙

紀實文錄
2025-04-12 11:58:09
富豪提議:若中美開戰,不能殺死對方的兵,均不在對方領土上打

富豪提議:若中美開戰,不能殺死對方的兵,均不在對方領土上打

貓眼觀史
2025-06-07 23:04:24
張建簡歷被撤下,違規吃喝被通報

張建簡歷被撤下,違規吃喝被通報

觀察者網
2025-06-08 13:50:57
無意修復關系 特朗普警告馬斯克若資助民主黨將面臨“嚴重后果”

無意修復關系 特朗普警告馬斯克若資助民主黨將面臨“嚴重后果”

環球網資訊
2025-06-08 05:48:13
2025上半年新生人口預測結果出爐:結局令人難以想象

2025上半年新生人口預測結果出爐:結局令人難以想象

巢客HOME
2025-06-08 10:56:33
2025-06-08 23:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10613文章數 176164關注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

85后王寧成河南首富身家超1400億 23歲時創立泡泡瑪特

頭條要聞

85后王寧成河南首富身家超1400億 23歲時創立泡泡瑪特

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

與前妻對簿公堂卻暴露了張紀中的窘境

財經要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

教育
家居
游戲
房產
本地

教育要聞

高考歷史,難上熱搜!題干多是文言文!網友:歷史給我道歉!

家居要聞

現代風格 意式奢華空間

夢幻西游三屬性玉魄令開獎玩家自閉,這不是一張紙而是我來時的路

房產要聞

與亞沙共鑒,新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 廉江市| 五大连池市| 旌德县| 枣庄市| 玉龙| 滦南县| 达州市| 怀柔区| 顺平县| 太仆寺旗| 扶绥县| 城口县| 清远市| 湘阴县| 岚皋县| 云南省| 东兰县| 淮滨县| 丹江口市| 延津县| 三门县| 晋中市| 遵化市| 平远县| 上饶县| 潜江市| 开化县| 昭苏县| 韶关市| 乌拉特中旗| 昆山市| 莫力| 宁远县| 和龙市| 左云县| 陆良县| 阜城县| 清镇市| 巢湖市| 宁远县| 青海省|