99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型玩不好數(shù)獨?排行榜:o3 Mini High變異數(shù)獨正確率僅2.9%

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

大模型做數(shù)獨,總體正確率只有15%???



繼出場自帶十篇完整學(xué)術(shù)論文的史上首個“AI科學(xué)家”之后,Transformer作者Llion Jones又帶著他的創(chuàng)業(yè)公司Sakana AI來搞事情了。

這次,Sakana AI公布了一個AI模型解決數(shù)獨問題能力的排行榜

問題集是該公司推出的全新基準Sudoku-Bench,包含了從簡單的4x4到復(fù)雜的9x9現(xiàn)代數(shù)獨問題,旨在考驗大模型創(chuàng)造性推理能力

榜單顯示,大模型不僅總體正確率只有15%,在9×9的現(xiàn)代數(shù)獨中,即使是高性能模型o3 Mini High,正確率也只有2.9%。



Sudoku-Bench項目在2025NVIDIA GTC開發(fā)者大會上進行了展示。

NVIDIA首席執(zhí)行官黃仁勛對此評價:

  • 像數(shù)獨這樣的謎題將有助于提高AI的推理能力。



Sudoku-Bench全新基準測試

Sudoku-Bench是Sakana AI在今年3月發(fā)布的一項由不同難度級別的數(shù)獨謎題組成的基準測試,用于衡量人工智能的多層次和創(chuàng)造性推理能力。

1、現(xiàn)有問題:大模型的 “記憶依賴癥”

目前大多數(shù)推理基準測試存在一個缺陷:大模型往往通過記憶標準答案或固定模式來完成任務(wù),而不是真正運用邏輯推理能力

當(dāng)遇到與訓(xùn)練數(shù)據(jù)中 “類似” 的問題時,模型會直接套用記憶中的解決方案,而非通過邏輯推導(dǎo)得出答案。

對于全新規(guī)則或未見過的模式,模型往往無法有效應(yīng)對,因為缺乏可直接匹配的記憶模板。

傳統(tǒng)數(shù)獨游戲?qū)Υ竽P蛠碚f可能已經(jīng) “太簡單”,它們可能只是記住了套路,而不是學(xué)會如何創(chuàng)造性地解決新問題。

2、解決方案:Sudoku-Bench用 “變異數(shù)獨” 考倒大模型

近年來,各種各樣具有獨特規(guī)則的衍生謎題出現(xiàn)。

這些“變異數(shù)獨”謎題需要多步驟和創(chuàng)造性的推理技巧,但只有一個正確答案,特點是無法通過記憶解決,必須通過多步邏輯推理找到 “突破口”

這些特點使得“變異數(shù)獨”成為測試AI推理能力的理想選擇。

以下就是一個“變異數(shù)獨”示例,你不僅需要遵循原始規(guī)則,而且沿著彩色線條排列的數(shù)字還需要遵循額外的規(guī)則。



Sudoku-Bench基準包括傳統(tǒng)和現(xiàn)代數(shù)獨(變異數(shù)獨)問題,難度分級,從當(dāng)前模型可以解決的簡單問題到甚至最先進的推理模型也無法處理的極其困難的問題。



Sudoku-Bench還包含了由Nikoli(日本著名的數(shù)獨公司,數(shù)獨正是其名稱的由來)提供的100道手工數(shù)獨題



3、大模型的 “慘敗”:基線實驗結(jié)果

在今年3月該基準發(fā)布后,研究人員測試了多個AI模型,包括Gemini 2.5 Pro、GPT-4.1、Claude 3.7等在內(nèi)的最先進大模型。

為了給模型一個公平的機會,團隊為模型提供了部分完成的謎題,并評估它們完成謎題的能力。



結(jié)果顯示,一些模型在這種輔助下表現(xiàn)得相當(dāng)不錯,但關(guān)鍵結(jié)果在于最后兩列。

即使是最先進的模型,平均連一個正確的數(shù)字都放不下,而OpenAI最新的推理模型ChatGPT o3是唯一能夠解決基準測試中所有謎題的模型。

最新的排行榜顯示:

  • 無工具輔助時,所有模型在100個謎題中的總體正確率低于15%
  • 小網(wǎng)格(4x4)表現(xiàn)稍好(40%-73% 正確率),但9x9網(wǎng)格幾乎全敗,正確率接近0%,即使是高性能模型“o3 Mini High”的正確率也只有2.9%。
  • 模型常犯錯誤包括:錯誤解答、放棄解題、誤判規(guī)則矛盾,尤其是面對需要 “突破口” 的謎題時,只會盲目猜測,無法像人類一樣通過邏輯鏈縮小搜索范圍。



測試團隊詳細列出了模型在每個謎題上的表現(xiàn),感興趣的朋友可戳文末鏈接查看~

關(guān)于Sakana AI

Sakana AI由前谷歌研究人員Llion Jones(Transformer作者之一)和David Ha于2023 年7月在東京成立,主要對生成文本和圖像的AI基本模型進行研究。

此前,該公司開源發(fā)布了AI科學(xué)家AI審稿人,前者一出場就獨自完成了十篇完整的學(xué)術(shù)論文,包括但不限于擴散模型方向、Transformer與強化學(xué)習(xí)等,引起了不小的轟動。

后者能對AI寫的論文進行評審,提供改進意見,主打“以我之矛攻我之盾”。



該公司還發(fā)布了一種名為“連續(xù)思維機器 (CTM)”的新型AI模型,通過像人類一樣“逐步”思考并學(xué)習(xí)世界的內(nèi)部模型,超越了簡單的模式識別,并獲得了逐步解決迷宮等復(fù)雜問題的能力。

Sakana AI還與Cracking The Cryptic(YouTube 上最大的謎題評論頻道之一)合作,Cracking The Cryptic每天都會演示一些世界上最好的數(shù)獨謎題的邏輯解決方案。



Sakana AI獲得了這些視頻的文字記錄以及答題過程中采取的行動數(shù)據(jù)。這些數(shù)據(jù)可以作為訓(xùn)練AI推理模型的理想數(shù)據(jù),并與Sudoku-Bench一起發(fā)布。



著名的數(shù)獨出題人Marty Sears還為Sakana AI定制了一款名為“奇偶魚”的數(shù)獨游戲:沿著Sakana AI紅色標志線相鄰的任何數(shù)字都必須包含一個偶數(shù)和一個奇數(shù)。

感興趣的朋友可以嘗試一下(解答過程已附在文末)~



技術(shù)報告:https://arxiv.org/abs/2505.16135
排行榜:https://pub.sakana.ai/sudoku/
Github:https://github.com/SakanaAI/Sudoku-Bench
奇偶魚題目:https://sudokupad.app/wsj7iunsg6
解答過程:https://www.youtube.com/watch?v=JdHSSNKuIzU
[1]https://x.com/SakanaAILabs/status/1926905826465161629
[2]https://sakana.ai/sudoku-bench/

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
2025汽車價格戰(zhàn)打響!比亞迪揮起鐮刀,吉利、奇瑞紛紛跟進

2025汽車價格戰(zhàn)打響!比亞迪揮起鐮刀,吉利、奇瑞紛紛跟進

說財貓
2025-05-29 21:16:18
全劇終!浙江一股民抄底st吉藥,兩個月虧77萬,該股今天摘牌退市

全劇終!浙江一股民抄底st吉藥,兩個月虧77萬,該股今天摘牌退市

小舟談歷史
2025-05-29 11:35:30
2選1,真要走了?中超射手王:終究淪為犧牲品

2選1,真要走了?中超射手王:終究淪為犧牲品

話體壇
2025-05-29 12:07:56
特朗普靠不住,馮德萊恩呼吁擺脫美國,建立一個“獨立的歐洲”

特朗普靠不住,馮德萊恩呼吁擺脫美國,建立一個“獨立的歐洲”

一種觀點
2025-05-29 23:41:31
汽車價格戰(zhàn)900天,最大受害者已經(jīng)出現(xiàn)

汽車價格戰(zhàn)900天,最大受害者已經(jīng)出現(xiàn)

大貓財經(jīng)Pro
2025-05-28 13:00:14
若雷霆與步行者會師決賽,NBA奢侈稅制度生效以來首次出現(xiàn)兩支非繳稅球隊爭冠

若雷霆與步行者會師決賽,NBA奢侈稅制度生效以來首次出現(xiàn)兩支非繳稅球隊爭冠

雷速體育
2025-05-29 11:10:39
悲催!網(wǎng)傳去年微軟蘇州裁員去西雅圖的員工,現(xiàn)全部被裁且0賠償

悲催!網(wǎng)傳去年微軟蘇州裁員去西雅圖的員工,現(xiàn)全部被裁且0賠償

星光看娛樂
2025-05-29 14:04:04
公安部的禁酒令及宴請規(guī)定:公職人員下班聚餐和飲酒也算違規(guī)?

公安部的禁酒令及宴請規(guī)定:公職人員下班聚餐和飲酒也算違規(guī)?

二月侃事
2025-05-28 08:18:10
美國務(wù)卿魯比奧:美國將開始吊銷中國留學(xué)生簽證

美國務(wù)卿魯比奧:美國將開始吊銷中國留學(xué)生簽證

國際在線
2025-05-29 12:49:07
002708,終止重組,明起復(fù)牌!

002708,終止重組,明起復(fù)牌!

第一財經(jīng)資訊
2025-05-29 22:29:53
前半生命苦,后半生享福的5個生肖,有你嗎?

前半生命苦,后半生享福的5個生肖,有你嗎?

聞心品閣
2025-05-28 22:29:43
沙特阿拉伯,越來越開放了|地球知識局

沙特阿拉伯,越來越開放了|地球知識局

地球知識局
2025-05-29 12:11:04
西安驚現(xiàn)雷人征婚海報!引發(fā)知名財經(jīng)評論員發(fā)帖,這相親要求高嗎

西安驚現(xiàn)雷人征婚海報!引發(fā)知名財經(jīng)評論員發(fā)帖,這相親要求高嗎

火山詩話
2025-05-29 09:12:29
美專家:若中國武統(tǒng),西方可凍結(jié)3.4萬億中國資產(chǎn),但中國有王炸

美專家:若中國武統(tǒng),西方可凍結(jié)3.4萬億中國資產(chǎn),但中國有王炸

大國紀錄
2025-04-21 17:12:04
朱令案嫌疑人現(xiàn)狀:伯父是副國,移民澳洲25年,嫁白男生一對兒女

朱令案嫌疑人現(xiàn)狀:伯父是副國,移民澳洲25年,嫁白男生一對兒女

歷史八卦社
2023-12-25 11:32:40
山東濟南一商鋪發(fā)生火災(zāi),5人輕傷,1人失聯(lián)

山東濟南一商鋪發(fā)生火災(zāi),5人輕傷,1人失聯(lián)

瀟湘晨報
2025-05-29 12:55:51
游客發(fā)現(xiàn)重慶武陵山天池底為304不銹鋼?景區(qū)回應(yīng)

游客發(fā)現(xiàn)重慶武陵山天池底為304不銹鋼?景區(qū)回應(yīng)

魯中晨報
2025-05-29 09:41:02
60歲的張曼玉現(xiàn)身上海,臉上雖有了歲月的痕跡,但氣質(zhì)不減當(dāng)年。

60歲的張曼玉現(xiàn)身上海,臉上雖有了歲月的痕跡,但氣質(zhì)不減當(dāng)年。

動物奇奇怪怪
2025-05-27 11:22:30
網(wǎng)友:親姐弟住賓館開一個房間不行嗎?還能省點房費,兒媳不樂意

網(wǎng)友:親姐弟住賓館開一個房間不行嗎?還能省點房費,兒媳不樂意

火山詩話
2025-04-05 16:39:32
藍正龍深夜到店喝酒,打扮像日本人,臉色不好,疑似難忘大S

藍正龍深夜到店喝酒,打扮像日本人,臉色不好,疑似難忘大S

鑫鑫說說
2025-05-29 09:49:01
2025-05-30 01:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10589文章數(shù) 176156關(guān)注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應(yīng)

頭條要聞

巴西檢方宣布正在起訴比亞迪 外交部回應(yīng)

體育要聞

納達爾,法網(wǎng),漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發(fā)生了

財經(jīng)要聞

若對等關(guān)稅叫停,特朗普還能怎么加關(guān)稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預(yù)售

態(tài)度原創(chuàng)

家居
數(shù)碼
游戲
手機
本地

家居要聞

暖色復(fù)古 溫馨小資情調(diào)

數(shù)碼要聞

英偉達原生 GeForce NOW 應(yīng)用登陸 Steam Deck

死亡擱淺2暫無DLC計劃 小島:現(xiàn)在已經(jīng)不流行了吧

手機要聞

iPhone11可升iOS26?

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 健康| 秦皇岛市| 望城县| 甘孜| 上林县| 肇州县| 东阳市| 武功县| 曲沃县| 昆山市| 和平县| 衢州市| 云阳县| 同江市| 平顶山市| 双流县| 株洲市| 同江市| 平凉市| 合水县| 顺平县| 永嘉县| 靖州| 北辰区| 大足县| 沁阳市| 长春市| 安乡县| 沽源县| 淮南市| 西充县| 普安县| 丰宁| 蒲城县| 泾阳县| 临猗县| 广宁县| 中宁县| 凤凰县| 铜陵市| 灵寿县|