99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<sub id="9zzau"></sub>

<pre id="9zzau"><strike id="9zzau"></strike></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

大模型玩不好數獨？排行榜：o3 Mini High變異數獨正確率僅2.9%

2025-05-28 13:51:26　來源: 量子位

香港舉報

0

分享至

聞樂發自凹非寺
量子位 | 公眾號 QbitAI

大模型做數獨，總體正確率只有15%？？？

繼出場自帶十篇完整學術論文的史上首個“AI科學家”之后，Transformer作者Llion Jones又帶著他的創業公司Sakana AI來搞事情了。

這次，Sakana AI公布了一個AI模型解決數獨問題能力的排行榜

問題集是該公司推出的全新基準Sudoku-Bench，包含了從簡單的4x4到復雜的9x9現代數獨問題，旨在考驗大模型創造性推理能力

榜單顯示，大模型不僅總體正確率只有15%，在9×9的現代數獨中，即使是高性能模型o3 Mini High，正確率也只有2.9%。

Sudoku-Bench項目在2025NVIDIA GTC開發者大會上進行了展示。

NVIDIA首席執行官黃仁勛對此評價：

像數獨這樣的謎題將有助于提高AI的推理能力。

Sudoku-Bench全新基準測試

Sudoku-Bench是Sakana AI在今年3月發布的一項由不同難度級別的數獨謎題組成的基準測試，用于衡量人工智能的多層次和創造性推理能力。

1、現有問題：大模型的 “記憶依賴癥”

目前大多數推理基準測試存在一個缺陷：大模型往往通過記憶標準答案或固定模式來完成任務，而不是真正運用邏輯推理能力

當遇到與訓練數據中 “類似” 的問題時，模型會直接套用記憶中的解決方案，而非通過邏輯推導得出答案。

對于全新規則或未見過的模式，模型往往無法有效應對，因為缺乏可直接匹配的記憶模板。

傳統數獨游戲對大模型來說可能已經 “太簡單”，它們可能只是記住了套路，而不是學會如何創造性地解決新問題。

2、解決方案：Sudoku-Bench用 “變異數獨” 考倒大模型

近年來，各種各樣具有獨特規則的衍生謎題出現。

這些“變異數獨”謎題需要多步驟和創造性的推理技巧，但只有一個正確答案，特點是無法通過記憶解決，必須通過多步邏輯推理找到 “突破口”

這些特點使得“變異數獨”成為測試AI推理能力的理想選擇。

以下就是一個“變異數獨”示例，你不僅需要遵循原始規則，而且沿著彩色線條排列的數字還需要遵循額外的規則。

Sudoku-Bench基準包括傳統和現代數獨（變異數獨）問題，難度分級，從當前模型可以解決的簡單問題到甚至最先進的推理模型也無法處理的極其困難的問題。

Sudoku-Bench還包含了由Nikoli（日本著名的數獨公司，數獨正是其名稱的由來）提供的100道手工數獨題

3、大模型的 “慘敗”：基線實驗結果

在今年3月該基準發布后，研究人員測試了多個AI模型，包括Gemini 2.5 Pro、GPT-4.1、Claude 3.7等在內的最先進大模型。

為了給模型一個公平的機會，團隊為模型提供了部分完成的謎題，并評估它們完成謎題的能力。

結果顯示，一些模型在這種輔助下表現得相當不錯，但關鍵結果在于最后兩列。

即使是最先進的模型，平均連一個正確的數字都放不下，而OpenAI最新的推理模型ChatGPT o3是唯一能夠解決基準測試中所有謎題的模型。

最新的排行榜顯示：

無工具輔助時，所有模型在100個謎題中的總體正確率低于15%
小網格（4x4）表現稍好（40%-73% 正確率），但9x9網格幾乎全敗，正確率接近0%，即使是高性能模型“o3 Mini High”的正確率也只有2.9%。
模型常犯錯誤包括：錯誤解答、放棄解題、誤判規則矛盾，尤其是面對需要 “突破口” 的謎題時，只會盲目猜測，無法像人類一樣通過邏輯鏈縮小搜索范圍。

測試團隊詳細列出了模型在每個謎題上的表現，感興趣的朋友可戳文末鏈接查看～

關于Sakana AI

Sakana AI由前谷歌研究人員Llion Jones（Transformer作者之一）和David Ha于2023 年7月在東京成立，主要對生成文本和圖像的AI基本模型進行研究。

此前，該公司開源發布了AI科學家AI審稿人，前者一出場就獨自完成了十篇完整的學術論文，包括但不限于擴散模型方向、Transformer與強化學習等，引起了不小的轟動。

后者能對AI寫的論文進行評審，提供改進意見，主打“以我之矛攻我之盾”。

該公司還發布了一種名為“連續思維機器 (CTM)”的新型AI模型，通過像人類一樣“逐步”思考并學習世界的內部模型，超越了簡單的模式識別，并獲得了逐步解決迷宮等復雜問題的能力。

Sakana AI還與Cracking The Cryptic（YouTube 上最大的謎題評論頻道之一）合作，Cracking The Cryptic每天都會演示一些世界上最好的數獨謎題的邏輯解決方案。

Sakana AI獲得了這些視頻的文字記錄以及答題過程中采取的行動數據。這些數據可以作為訓練AI推理模型的理想數據，并與Sudoku-Bench一起發布。

著名的數獨出題人Marty Sears還為Sakana AI定制了一款名為“奇偶魚”的數獨游戲：沿著Sakana AI紅色標志線相鄰的任何數字都必須包含一個偶數和一個奇數。

感興趣的朋友可以嘗試一下（解答過程已附在文末）～

技術報告：https://arxiv.org/abs/2505.16135
排行榜：https://pub.sakana.ai/sudoku/
Github：https://github.com/SakanaAI/Sudoku-Bench
奇偶魚題目：https://sudokupad.app/wsj7iunsg6
解答過程：https://www.youtube.com/watch?v=JdHSSNKuIzU
[1]https://x.com/SakanaAILabs/status/1926905826465161629
[2]https://sakana.ai/sudoku-bench/

— 完 —

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

類R1訓練不再只看結果對錯！港中文推出SophiaVL-R1模型

機器之心Pro 2025-06-06 18:13:26
0 跟貼 0
全球30名頂尖數學家秘密集會圍剿AI，當場破防！驚呼已接近數學天才

新智元 2025-06-07 16:04:37
97 跟貼 97

MoE推理「王炸」組合：昇騰×盤古讓推理性能狂飆6-8倍

機器之心Pro 2025-06-06 15:15:44
0 跟貼 0

RLHF已死，RLVR引爆AGI革命！Claude 4核心成員萬字對談

新智元 2025-06-07 09:04:24
26 跟貼 26
百度發布金融行業大模型，沈抖：產業從提示詞優化走向智能體構建

鈦媒體APP 2025-06-08 19:16:13
0 跟貼 0

哈佛團隊發現多巴胺能神經元新機制，或是突破AI瓶頸的鑰匙

DeepTech深科技 2025-06-08 22:16:25
0 跟貼 0

高德發布智能眼鏡解決方案融合AR導航與生活服務

經濟觀察報 2025-06-08 19:17:07
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0

6大模型決戰高考數學新一卷:豆包、元寶并列第一,OpenAI o3竟墊底

機器之心Pro 2025-06-08 11:17:11
13 跟貼 13
七家大模型挑戰 2025 高考數學：DeepSeek、訊飛星火得分超140

IT之家 2025-06-08 17:46:39
24 跟貼 24
全國正確率只有8%的初一易錯題

大力小學數學 2025-06-05 13:56:00
2 跟貼 2
溫國學迎峰會（100）| 哪項不是端午節的習俗？

京彩臺灣 2025-06-08 07:05:28
0 跟貼 0
高考作文“抽象”沖上熱搜，ChatGPT、DeepSeek等推理大模型集體上場，實測來了！

CSDN 2025-06-07 17:57:10
3 跟貼 3
2025年五菱宏光Mini EV重登電動車榜首，釋放什么信號？

影視道具庫 2025-06-06 16:24:19
0 跟貼 0
端側模型又“瘦身成功”！220倍極限提速、8B模型超過Gemma3-12B，面壁智能甩出“性能大小王”

智東西 2025-06-07 20:59:29
1 跟貼 1
輕奢電動小鋼炮的終極對決：15萬買Smart精靈#1還是MINI EV？

達車匯 2025-06-06 14:32:40
0 跟貼 0
寶馬+長城強強聯手“合資”，MINI性價比最高小型車，僅售14.88萬

隔壁說車老王 2025-06-07 07:57:26
2 跟貼 2
公開即威懾！東方哲學的止戈智慧，苑舉正：東風-5亮劍背后的邏輯

華山論舌 2025-06-07 08:32:58
0 跟貼 0
vivo S30 Pro mini 影像實測：小機身藏大本事，氛圍感照片隨手拍

科技先鋒俠 2025-06-08 20:35:18
0 跟貼 0
河南周口，農機夫婦夜間偶遇8旬獨居老人，幫其收割麥子！

大象新聞 2025-06-08 12:21:07
186 跟貼 186
紐約挖烏杜卡啥邏輯？尼克斯能否把他換來？

籃視角 2025-06-06 23:41:26
9 跟貼 9
萌到犯規！vivo S30 Pro mini 三麗鷗聯名禮盒開箱，直面可愛暴擊

雷科技 2025-06-06 20:01:26
6 跟貼 6
蒙古國"第三鄰國"夢碎！韓國政局大逆轉，印巴戰爭揭開博弈邏輯

老喬嘚吧嘚 2025-06-07 17:43:53
0 跟貼 0
美媒：美國恢復處理哈佛國際學生簽證

新京報 2025-06-08 09:16:06
13343 跟貼 13343
2025高考作文題目出爐，資陽一老師做夢夢到作文題目“我給學生講了的”

營天下 2025-06-07 17:20:09
6 跟貼 6
深山中發現地下迷宮“喬家洞”

娜娜小胖的旅行 2025-06-07 08:39:50
0 跟貼 0
Mini14輕型射手步槍外形嬌小緊湊卻蘊含強大能量

軍迷科普 2025-06-07 15:53:35
0 跟貼 0
川普大而美法案的底層邏輯

壹家言 2025-06-07 11:35:25
0 跟貼 0
狗狗迷宮挑戰，不講武德的先吃上了飯

小暖有料 2025-06-07 10:40:29
0 跟貼 0
中國最有氣質10位男星排行榜，可以說他們任意一位都是風華絕代

小光侃娛樂 2025-06-05 06:35:00
4 跟貼 4
衡水中學高三學生高考期間堅持晨跑，有家長為看到孩子用上望遠鏡

極目新聞 2025-06-08 08:09:52
5345 跟貼 5345
盤點邏輯鬼才的小朋友，這腦回路！

小車車和小劉劉 2025-06-08 13:25:53
0 跟貼 0
許其亮同志生平

新華社 2025-06-08 15:27:05
619 跟貼 619
特朗普與馬斯克友誼的船翻了，從各取所需到反目成仇非常符合邏輯

雨果說 2025-06-06 15:40:50
6 跟貼 6
河南省委派出15個巡視組

政知新媒體 2025-06-08 20:44:29
2 跟貼 2
這種題目一看就很復雜，如果你沒頭緒，那就來看看老師是怎么解的

三樂大掌柜 2025-06-04 11:13:38
1 跟貼 1
2025年高考英語全國卷重點考些啥？試題評析告訴你

新快報新聞 2025-06-08 20:33:11
5 跟貼 5
湖南省最大牌的10位明星排行榜，第一名不能說！

花開富貴一生中 2025-06-07 12:25:26
0 跟貼 0
外賣補貼大戰收到“抗議書”，為什么電商平臺要用茶和咖啡打頭陣

鈦媒體APP 2025-06-08 19:17:23
1 跟貼 1
高考歷史，難上熱搜！題干多是文言文！網友：歷史給我道歉！

南京擇校 2025-06-08 22:05:05
0 跟貼 0

美防長赫格塞斯放狠話，表示絕不會允許在特朗普任內收回臺灣！

美防長赫格塞斯放狠話，表示絕不會允許在特朗普任內收回臺灣！

大道無形我有型

2025-06-08 15:36:54

加州三名亞裔到處偷櫻桃，面臨指控

加州三名亞裔到處偷櫻桃，面臨指控

大洛杉磯LA

2025-06-08 05:52:11

與前妻再度對簿公堂，也暴露了張紀中的窘境，一把年紀了還不消停

與前妻再度對簿公堂，也暴露了張紀中的窘境，一把年紀了還不消停

動物奇奇怪怪

2025-06-08 19:46:55

奧沙利文和萊拉徹底分手，共有房產已出售！歷史第一人正搬離英國

奧沙利文和萊拉徹底分手，共有房產已出售！歷史第一人正搬離英國

世界體壇觀察家

2025-06-08 16:15:58

河南女子吃西瓜險喪命！央媒曝光、醫生警告，這種西瓜劇毒別吃

河南女子吃西瓜險喪命！央媒曝光、醫生警告，這種西瓜劇毒別吃

八斗小先生

2025-06-07 15:09:35

日本奈良收到史上最大個人捐款——整整20公斤黃金！70多歲老漢匿名捐贈～

日本奈良收到史上最大個人捐款——整整20公斤黃金！70多歲老漢匿名捐贈～

日本物語

2025-06-08 15:13:34

NBA傳聞：太陽隊凱文·杜蘭特交易談判出現重大轉折

NBA傳聞：太陽隊凱文·杜蘭特交易談判出現重大轉折

好火子

2025-06-08 22:20:25

《浪姐6》收官，4人名利雙收，3人翻紅，2人升咖，1人不如不來

《浪姐6》收官，4人名利雙收，3人翻紅，2人升咖，1人不如不來

頭號劇委會

2025-06-08 11:06:32

心理學家發現：對親人暴躁，對外人客氣的人，多半是以下4種人

心理學家發現：對親人暴躁，對外人客氣的人，多半是以下4種人

第一心理

2025-06-06 17:04:12

山西煤老板破產15年，女兒在國外突然來電：爸，倫敦的房子要賣嗎

山西煤老板破產15年，女兒在國外突然來電：爸，倫敦的房子要賣嗎

七分瘦三分肥

2025-06-04 22:10:18

雖然毛主席享年83歲，但保健醫生卻說：毛主席并不具備長壽條件

雖然毛主席享年83歲，但保健醫生卻說：毛主席并不具備長壽條件

史料布籍

2025-06-08 17:27:43

男女在酒吧親熱，不雅畫面流出，女方正面照曝光，一細節信息量大

男女在酒吧親熱，不雅畫面流出，女方正面照曝光，一細節信息量大

博士觀察

2025-06-08 19:22:07

李嘉誠說：“只有窮人，才會癡迷技術，只有笨人，才會先把事做好

李嘉誠說：“只有窮人，才會癡迷技術，只有笨人，才會先把事做好

伊人河畔

2025-06-08 11:05:34

吳簽在里面不老實？

毒舌扒姨太

2025-06-07 22:33:54

看不下去！丹麥記者吐槽霍伊倫：出場65分鐘不如替補球員30秒

看不下去！丹麥記者吐槽霍伊倫：出場65分鐘不如替補球員30秒

直播吧

2025-06-08 20:52:09

我幫村里寡婦通下水道，她卻羞紅臉說:還有個下水道也需要你幫忙

我幫村里寡婦通下水道，她卻羞紅臉說:還有個下水道也需要你幫忙

紀實文錄

2025-04-12 11:58:09

富豪提議：若中美開戰，不能殺死對方的兵，均不在對方領土上打

富豪提議：若中美開戰，不能殺死對方的兵，均不在對方領土上打

貓眼觀史

2025-06-07 23:04:24

張建簡歷被撤下，違規吃喝被通報

張建簡歷被撤下，違規吃喝被通報

觀察者網

2025-06-08 13:50:57

無意修復關系特朗普警告馬斯克若資助民主黨將面臨“嚴重后果”

無意修復關系特朗普警告馬斯克若資助民主黨將面臨“嚴重后果”

環球網資訊

2025-06-08 05:48:13

2025上半年新生人口預測結果出爐：結局令人難以想象

2025上半年新生人口預測結果出爐：結局令人難以想象

巢客HOME

2025-06-08 10:56:33

追蹤人工智能動態

10613文章數 176164關注度

往期回顧全部

科技要聞

馬斯克"越紅線"，美政府急尋SpaceX替代品

頭條要聞

85后王寧成河南首富身家超1400億 23歲時創立泡泡瑪特

頭條要聞

85后王寧成河南首富身家超1400億 23歲時創立泡泡瑪特

體育要聞

冠軍高芙：只要專注自己太陽就會照常升起

娛樂要聞

與前妻對簿公堂卻暴露了張紀中的窘境

財經要聞

暴漲超9%！白銀狂飆，“搶奪”黃金光環！

汽車要聞

復古造型樂趣依舊寶馬R12 nineT又帥又好騎

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

家居

游戲

房產

本地

教育要聞

高考歷史，難上熱搜！題干多是文言文！網友：歷史給我道歉！

家居要聞

現代風格意式奢華空間

潔白奶油簡約舒適之家
空間維度通透復式結構
北歐氛圍清新活潑趣味

夢幻西游三屬性玉魄令開獎玩家自閉，這不是一張紙而是我來時的路

房產要聞

與亞沙共鑒，新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：廉江市| 五大连池市| 旌德县| 枣庄市| 玉龙| 滦南县| 达州市| 怀柔区| 顺平县| 太仆寺旗| 扶绥县| 城口县| 清远市| 湘阴县| 岚皋县| 云南省| 东兰县| 淮滨县| 丹江口市| 延津县| 三门县| 晋中市| 遵化市| 平远县| 上饶县| 潜江市| 开化县| 昭苏县| 韶关市| 乌拉特中旗| 昆山市| 莫力| 宁远县| 和龙市| 左云县| 陆良县| 阜城县| 清镇市| 巢湖市| 宁远县| 青海省|

<sub id="zeyr9"></sub>