網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

LLM又曝致命缺陷：根本不會看時鐘！博士驚呆，準(zhǔn)確率不及50%

2025-05-19 12:43:49　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導(dǎo)讀】AI能寫論文、畫圖、考高分，但連「看表讀時間」「今天是星期幾」都錯得離譜？最新研究揭示了背后驚人的認(rèn)知缺陷，提醒我們：AI很強大，但精確推理還離不開人類。

有些任務(wù)對人類來說輕而易舉，但AI頻頻出錯。

比如，單詞「strawberry」中有幾個字母「r」一度難倒一眾頂尖LLM。

最新的研究揭示：看鐘表或日歷，對AI來說也很難。

圖1：在測試實例中，6款大模型均無法正確讀取指針式時鐘，僅2款能理解日歷

來自英國愛丁堡大學(xué)等機構(gòu)的研究者，揭示了這個令人深思的AI現(xiàn)象。

他們模擬了時鐘和年歷，系統(tǒng)考察了多模態(tài)語言大模型（MLLM）解讀時間與日期的能力。

結(jié)果令人失望：

AI系統(tǒng)讀取時鐘的準(zhǔn)確率僅為38.7%，判斷日歷日期的準(zhǔn)確率則只有26.3%。

在ICLR 2025的LLM推理與規(guī)劃研討會（ICLR 2025 Workshop on Reasoning and Planning for LLMs）上，他們展示了這些LLM出人意料的缺陷。

論文鏈接：https://arxiv.org/abs/2502.05092

為了探究MLLMs處理時間任務(wù)的能力，他們我們構(gòu)建了精確定制的測試集，包含兩個子集：ClockQA和CalendarQA。

ClockQA涵蓋了六類模擬時鐘圖像（含羅馬數(shù)字、缺失秒針及不同表盤顏色等變體）及其對應(yīng)的時間問題；

CalendarQA包含了十年的年歷圖像，問題設(shè)置從簡單到復(fù)雜：

元旦是星期幾？

3月15日是星期幾？

當(dāng)年的第153天是哪天？

圖2：DateTimeReasoning任務(wù)概覽及其兩個主要子集：ClockQA和CalendarQA

雖然數(shù)據(jù)集規(guī)模較小，但它的設(shè)計能有效探測時間推理、視覺解析和日期/時間推斷的核心維度。

初步發(fā)現(xiàn)表明：盡管某些模型在時鐘讀時或日歷問答中展現(xiàn)潛力，但根本問題依然存在。

其中，在時鐘讀時中，Gemini-2.0的時分針誤差較低；在日歷問答中，o1模型的準(zhǔn)確率最高。

詳細(xì)結(jié)果

表1總結(jié)了各模型在兩個任務(wù)中的表現(xiàn)。

在ClockQA任務(wù)中，Gemini-2.0取得了最高的精確匹配（Exact Match， EM）分?jǐn)?shù)（22.58%）和最小的小時/分鐘誤差，顯示出其在理解時鐘方面相較其他模型更具優(yōu)勢。

然而，整體的EM分?jǐn)?shù)仍然偏低，說明多模態(tài)大語言模型（MLLMs）在讀表任務(wù)上依舊存在明顯困難。

相比之下，GPT-o1在CalendarQA任務(wù)中表現(xiàn)突出，準(zhǔn)確率達(dá)到80%，展現(xiàn)出其在日期運算和邏輯推理方面的強大能力。其他模型則明顯落后，表明日期計算和結(jié)構(gòu)化布局解析仍然是AI面臨的難點。

整體而言，除了GPT-o1在CalendarQA中的高表現(xiàn)外，其余模型在ClockQA和CalendarQA兩個任務(wù)中的總體表現(xiàn)都不理想。

表1：各模型在時鐘任務(wù)（左）和日歷任務(wù)（右）中的表現(xiàn)。↑表示數(shù)值越高越好；↓表示數(shù)值越低越好

鐘表讀時任務(wù)仍容易出錯。

在ClockQA子集中，模型的表現(xiàn)明顯不如日歷類問題（見表1）。

圖4a和圖3a顯示，即使是在標(biāo)準(zhǔn)表盤下，模型的表現(xiàn)仍較差，有些模型甚至傾向于給出某個「默認(rèn)」時間。

使用羅馬數(shù)字或風(fēng)格化的指針會進一步增加錯誤率。

而去掉秒針后，并沒有簡化模型的推理過程，說明模型在識別指針和理解角度方面存在根本性的問題。

日歷推理分析稍好。

與之相比，部分模型在日歷類任務(wù)和某些題型上表現(xiàn)更佳。

GPT-o1在CalendarQA子集中表現(xiàn)尤為突出，總體準(zhǔn)確率高達(dá)80%（見表1和圖3b）。

圖3：ClockQA與CalendarQA的錯誤分析

圖3（a）中的點表示模型預(yù)測的時間（縱軸）與真實時間（橫軸）之間的關(guān)系。黑色虛線（y=x）代表理想情況下模型預(yù)測完全正確的情況。

圖3（b）展示了各模型按年份的準(zhǔn)確率表現(xiàn)。空白柱表示該模型在對應(yīng)年份的準(zhǔn)確率為0%。

像GPT-o1和Claude-3.5等閉源模型，在處理常見節(jié)假日的問題上優(yōu)于開源模型。

這可能是因為訓(xùn)練數(shù)據(jù)中包含了這些節(jié)日的記憶模式（見圖4b）。

然而，對于一些不太知名或需要復(fù)雜計算的問題（例如「第153天」），模型的準(zhǔn)確率大幅下降，這說明偏移類推理能力難以遷移。

在這類問題上的表現(xiàn)，小型或開源模型（如MiniCPM、Qwen2-VL-7B和Llama3.2-Vision）幾乎是隨機的，這一點尤為明顯。

圖4：基于問題類型與類別的ClockQA及CalendarQA分析

研究還揭示了另一個問題：當(dāng)AI在訓(xùn)練時接觸到的數(shù)據(jù)有限，特別是面對像閏年或復(fù)雜日歷計算這樣的少見現(xiàn)象時，它的表現(xiàn)就會明顯下滑。

盡管大語言模型（LLM）在訓(xùn)練中接觸過大量關(guān)于「閏年」概念的解釋，但這并不意味著它們能夠完成涉及視覺判斷的相關(guān)任務(wù)所需的推理。

這項研究強調(diào)了兩個方面的改進需求：

一是需要在訓(xùn)練數(shù)據(jù)中加入更多有針對性的示例；

二是需要重新思考AI如何處理邏輯推理與空間感知相結(jié)合的任務(wù)，尤其是那些它們平時接觸不多的任務(wù)。

盡信AI，不如無AI

AI系統(tǒng)正確讀取時鐘的準(zhǔn)確率僅為38.7%，判斷日歷日期的準(zhǔn)確率則只有26.3%。

早期的系統(tǒng)通過標(biāo)注樣本進行訓(xùn)練，但讀取時鐘需要的是另一種能力——空間推理。

這可能是AI這次表現(xiàn)不佳的原因，論文作者、愛丁堡大學(xué)研究人員Rohit Saxena解釋道：

模型必須識別指針重疊、測量角度，還要適應(yīng)各種不同的表盤設(shè)計，比如羅馬數(shù)字或藝術(shù)化的刻度。

AI要認(rèn)出「這是個鐘表」相對容易，但真正讀出時間就難多了。

日期判斷同樣令人頭疼。

當(dāng)被問到日期推理問題時，AI的錯誤率也很高。比如，「今年的第153天是星期幾？」這類問題。

這個缺陷也令人意外，因為算術(shù)本應(yīng)是計算機的基本能力之一。

但正如Saxena所解釋的那樣，AI處理算術(shù)的方式和傳統(tǒng)計算機不同：

算術(shù)對傳統(tǒng)計算機來說很簡單，但對大語言模型就不是這樣了。AI并不是運行數(shù)學(xué)算法，而是根據(jù)訓(xùn)練數(shù)據(jù)中學(xué)到的模式來預(yù)測答案。

所以它有時可以答對算術(shù)問題，但推理過程既不一致也不基于規(guī)則，而我們的研究正是揭示了這個差距。

這項研究是近年來不斷增長的一個研究方向的一部分，聚焦于AI的「理解」方式與人類理解方式之間的差異。

AI模型是通過識別熟悉的模式來得出答案的，當(dāng)訓(xùn)練數(shù)據(jù)中有足夠的示例時，它們表現(xiàn)優(yōu)秀，但在需要泛化或進行抽象推理時就會失敗。

最重要的是，研究再次提醒我們，過度依賴AI的輸出可能帶來風(fēng)險。

Saxena表示：「AI的確很強大，但當(dāng)任務(wù)既涉及感知又需要精確推理時，我們?nèi)匀恍枰M行嚴(yán)格測試、設(shè)置備用邏輯，很多情況下還必須有人類介入。」

另一名作者、愛丁堡大學(xué)博士生Aryo Pradipta Gema，則表示

如今的AI研究往往強調(diào)復(fù)雜的推理任務(wù)，但具有諷刺意味的是，很多系統(tǒng)在應(yīng)對更簡單的日常任務(wù)時仍顯吃力。

我們的研究發(fā)現(xiàn)表明，現(xiàn)在已經(jīng)到了必須解決這些基礎(chǔ)能力缺陷的時候了。否則，AI在那些對時間敏感的現(xiàn)實應(yīng)用中，可能始終難以真正落地。

參考資料：

https://www.livescience.com/technology/artificial-intelligence/ai-models-cant-tell-time-or-read-a-calendar-study-reveals

https://arxiv.org/abs/2502.05092

https://www.ed.ac.uk/news/most-ai-struggles-to-read-clocks-and-calendars

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

突破多模態(tài)獎勵瓶頸！R1-Reward用強化學(xué)習(xí)賦予模型長期推理能力

量子位 2025-05-08 17:47:02
1 跟貼 1
帶圖推理碾壓同類開源模型！港中文微軟等開源OpenThinkIMG框架

量子位 2025-05-17 12:14:30
12 跟貼 12

打破56年數(shù)學(xué)鐵律！谷歌AlphaEvolve自我進化實現(xiàn)算法效率狂飆

量子位 2025-05-18 12:03:34
17 跟貼 17

全新GPU高速互聯(lián)設(shè)計，為大模型訓(xùn)練降本增效

量子位 2025-05-19 14:32:44
0 跟貼 0
顏水成領(lǐng)銜，給AI分段位！超100款多模態(tài)模型，無人達(dá)到L5

新智元 2025-05-19 12:51:43
0 跟貼 0

類比的長河，為何流到大模型就被截流？

鈦媒體APP 2025-04-30 16:09:25
0 跟貼 0

OceanBase全面擁抱AI！首發(fā)PowerRAG產(chǎn)品，CTO楊傳輝詳解AI戰(zhàn)略

量子位 2025-05-19 14:57:41
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應(yīng)

量子位 2025-05-18 12:49:08
0 跟貼 0

宇樹科技G1機器人展示武打動作：算法升級任意動作任意學(xué)

財聯(lián)社 2025-02-25 23:59:43
0 跟貼 0
“核彈”級升級！英偉達(dá)最強GB300 AI工廠性能提升5000%，黃仁勛：AI算力每10年提高100萬倍

鈦媒體APP 2025-05-19 15:27:12
0 跟貼 0
設(shè)計工具突圍：妙多如何打造全球首個界面設(shè)計 AI 助手？

量子位 2025-05-19 15:27:28
0 跟貼 0
傳統(tǒng)MVP模型不成立了，AI時代要更多預(yù)測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
如何用上AI，用好AI？“2025騰訊云AI產(chǎn)業(yè)應(yīng)用峰會”定檔5月21日

量子位 2025-05-19 15:51:02
0 跟貼 0
如何辨別AI生成的圖片、文字、聲音？這些技巧請掌握

今日辟謠 2025-05-19 15:47:15
0 跟貼 0
從算法到模型推理：應(yīng)屆生成功轉(zhuǎn)型并收獲6個offer的進階之路

算法與數(shù)學(xué)之美 2025-05-15 12:01:10
0 跟貼 0
翁荔最新萬字長文：Why We Think

量子位 2025-05-18 13:39:52
1 跟貼 1
太陽系中最像地球的衛(wèi)星，探測器傳回了最真實的圖像

六六冷知識 2025-05-18 13:08:05
1 跟貼 1
5月18日報道，軍博銅門是1958年炮擊金門彈殼熔鑄而成，“很多觀眾會摸一摸”

大象新聞 2025-05-19 09:58:11
523 跟貼 523
華為+DeepSeek，推理性能創(chuàng)新高！技術(shù)報告也公布出來了

量子位 2025-05-19 13:19:46
0 跟貼 0
水泥航母模型變成了核動力，暗示下一艘核動力航母妥了

緣史記 2025-05-18 07:24:15
0 跟貼 0
原本我以為青銅鏡都是模糊的，沒想到這么透亮，比玻璃鏡子還清晰

電工維修技術(shù) 2025-05-18 00:03:46
3432 跟貼 3432
恭喜無錫邢蘇瞳同學(xué)！

江南晚報 2025-05-19 15:22:32
0 跟貼 0
當(dāng)五代機遭遇“低科技陷阱”：從F-35遇險看非對稱戰(zhàn)爭的新邏輯

華山論舌 2025-05-17 07:55:46
0 跟貼 0
學(xué)術(shù)誠信不該被“算法”綁架

河南民生頻道 2025-05-18 16:33:03
0 跟貼 0
爸爸犯錯后被萌娃一頓教訓(xùn)、這邏輯無懈可擊

ConfusionMax 2025-05-17 07:23:27
2794 跟貼 2794
史上最離譜的時鐘槍！每小時發(fā)射1發(fā)彈藥

軍迷科普 2025-05-18 14:38:51
0 跟貼 0
離譜的新能源汽車維修:解鎖動力電池包獲刑

經(jīng)濟觀察報 2025-05-18 20:37:07
1982 跟貼 1982
機器人的算法太恐怖了！

后來剪影 2025-05-17 21:46:29
1 跟貼 1
福建艦直播式海試，性能被嚴(yán)重低估，8萬余噸“誤差”至少上萬

王同學(xué)來了 2025-05-18 12:42:57
0 跟貼 0
俄烏戰(zhàn)場進入算法廝殺時代，無人機斷網(wǎng)不死自主獵殺

鳳凰衛(wèi)視 2025-05-17 20:20:57
0 跟貼 0
牛彈琴：很讓人震驚拜登確診癌癥癌細(xì)胞已擴散至骨骼

現(xiàn)代快報 2025-05-19 08:14:37
695 跟貼 695
問題被曝光后，夜里11點常務(wù)副市長率隊到現(xiàn)場，市長牽頭專項整治，市紀(jì)委啟動問責(zé)

新京報政事兒 2025-05-19 14:20:06
43 跟貼 43
看著這逼真的模型，簡直太厲害了

司空昆峰 2025-05-15 09:20:54
807 跟貼 807
時隔近12年，黨中央修訂這一重磅文件，有新變化

政知新媒體 2025-05-18 22:57:03
814 跟貼 814
商戶已搬走，現(xiàn)場被圍蔽，珠江新城最后黃金寶地何去何從

南方都市報 2025-05-19 10:21:13
616 跟貼 616
從載荷到蜂群戰(zhàn)術(shù)：'九天'無人機如何重構(gòu)現(xiàn)代戰(zhàn)爭的底層邏輯？

烽火三月佳人三千 2025-05-18 02:45:16
0 跟貼 0
市民家中漏水維修人員直接灌了80斤膠水總價19800元

每日經(jīng)濟新聞 2025-05-19 11:56:20
211 跟貼 211
AI算法的厲害之處，無人快遞車逆行加塞視頻車，車主：小丑竟是我自己

奇妙觀探 2025-05-17 16:54:28
0 跟貼 0
學(xué)習(xí)思維沒跟上，學(xué)得再多也白搭

教育思享 2025-05-19 10:00:59
0 跟貼 0
師傅用電鉆調(diào)公里數(shù)，竟試圖把上百萬數(shù)值歸零，這就是二手車套路

破防了笑工廠 2025-05-16 15:59:56
368 跟貼 368

戶外釣魚哥阿勇

2025-05-19 12:43:46

中央定調(diào)，2025年養(yǎng)老金調(diào)增！月入2000元工齡20年，能漲100元？

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

12728文章數(shù) 66036關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

藝術(shù)

數(shù)碼

時尚

家居要聞

手機 / 數(shù)碼

房產(chǎn) / 家居

LLM又曝致命缺陷：根本不會看時鐘！博士驚呆，準(zhǔn)確率不及50%

首款鴻蒙折疊電腦發(fā)布

男子生產(chǎn)的螺母被認(rèn)定槍支散件 檢方建議量刑10年以上

男子生產(chǎn)的螺母被認(rèn)定槍支散件 檢方建議量刑10年以上

1場3次爭議判罰！梅西炮轟美職聯(lián)裁判

S媽首次回應(yīng)被指控偷大s珠寶一事

廣州、廈門等地銀行逆勢上調(diào)首套房利率

雷軍官宣：小米首款SUV YU7 5月22日發(fā)布

態(tài)度原創(chuàng)

暗色工業(yè) 簡約的設(shè)計美學(xué)

親子齊運動 相伴共成長——青島第五十三中學(xué)基礎(chǔ)學(xué)部四（7）“百花中隊”戶外親子運動課堂活動

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

鴻蒙折疊電腦搭載全球最大尺寸鉸鏈 完美實現(xiàn)閉合無縫

讓世界為中國文物駐足，他們都做了什么？

男子生產(chǎn)的螺母被認(rèn)定槍支散件檢方建議量刑10年以上

男子生產(chǎn)的螺母被認(rèn)定槍支散件檢方建議量刑10年以上

親子齊運動相伴共成長——青島第五十三中學(xué)基礎(chǔ)學(xué)部四（7）“百花中隊”戶外親子運動課堂活動

鴻蒙折疊電腦搭載全球最大尺寸鉸鏈完美實現(xiàn)閉合無縫