新智元報道
編輯:KingHZ
【新智元導(dǎo)讀】AI能寫論文、畫圖、考高分,但連「看表讀時間」「今天是星期幾」都錯得離譜?最新研究揭示了背后驚人的認(rèn)知缺陷,提醒我們:AI很強大,但精確推理還離不開人類。
有些任務(wù)對人類來說輕而易舉,但AI頻頻出錯。
比如,單詞「strawberry」中有幾個字母「r」一度難倒一眾頂尖LLM。
最新的研究揭示:看鐘表或日歷,對AI來說也很難。
圖1:在測試實例中,6款大模型均無法正確讀取指針式時鐘,僅2款能理解日歷
來自英國愛丁堡大學(xué)等機構(gòu)的研究者,揭示了這個令人深思的AI現(xiàn)象。
他們模擬了時鐘和年歷,系統(tǒng)考察了多模態(tài)語言大模型(MLLM)解讀時間與日期的能力。
結(jié)果令人失望:
AI系統(tǒng)讀取時鐘的準(zhǔn)確率僅為38.7%,判斷日歷日期的準(zhǔn)確率則只有26.3%。
在ICLR 2025的LLM推理與規(guī)劃研討會(ICLR 2025 Workshop on Reasoning and Planning for LLMs)上,他們展示了這些LLM出人意料的缺陷。
論文鏈接:https://arxiv.org/abs/2502.05092
為了探究MLLMs處理時間任務(wù)的能力,他們我們構(gòu)建了精確定制的測試集,包含兩個子集:ClockQA和CalendarQA。
ClockQA涵蓋了六類模擬時鐘圖像(含羅馬數(shù)字、缺失秒針及不同表盤顏色等變體)及其對應(yīng)的時間問題;
CalendarQA包含了十年的年歷圖像,問題設(shè)置從簡單到復(fù)雜:
元旦是星期幾?
3月15日是星期幾?
當(dāng)年的第153天是哪天?
圖2:DateTimeReasoning任務(wù)概覽及其兩個主要子集:ClockQA和CalendarQA
雖然數(shù)據(jù)集規(guī)模較小,但它的設(shè)計能有效探測時間推理、視覺解析和日期/時間推斷的核心維度。
初步發(fā)現(xiàn)表明:盡管某些模型在時鐘讀時或日歷問答中展現(xiàn)潛力,但根本問題依然存在。
其中,在時鐘讀時中,Gemini-2.0的時分針誤差較低;在日歷問答中,o1模型的準(zhǔn)確率最高。
詳細(xì)結(jié)果
表1總結(jié)了各模型在兩個任務(wù)中的表現(xiàn)。
在ClockQA任務(wù)中,Gemini-2.0取得了最高的精確匹配(Exact Match, EM)分?jǐn)?shù)(22.58%)和最小的小時/分鐘誤差,顯示出其在理解時鐘方面相較其他模型更具優(yōu)勢。
然而,整體的EM分?jǐn)?shù)仍然偏低,說明多模態(tài)大語言模型(MLLMs)在讀表任務(wù)上依舊存在明顯困難。
相比之下,GPT-o1在CalendarQA任務(wù)中表現(xiàn)突出,準(zhǔn)確率達(dá)到80%,展現(xiàn)出其在日期運算和邏輯推理方面的強大能力。其他模型則明顯落后,表明日期計算和結(jié)構(gòu)化布局解析仍然是AI面臨的難點。
整體而言,除了GPT-o1在CalendarQA中的高表現(xiàn)外,其余模型在ClockQA和CalendarQA兩個任務(wù)中的總體表現(xiàn)都不理想。
表1:各模型在時鐘任務(wù)(左)和日歷任務(wù)(右)中的表現(xiàn)。↑表示數(shù)值越高越好;↓表示數(shù)值越低越好
鐘表讀時任務(wù)仍容易出錯。
在ClockQA子集中,模型的表現(xiàn)明顯不如日歷類問題(見表1)。
圖4a和圖3a顯示,即使是在標(biāo)準(zhǔn)表盤下,模型的表現(xiàn)仍較差,有些模型甚至傾向于給出某個「默認(rèn)」時間。
使用羅馬數(shù)字或風(fēng)格化的指針會進一步增加錯誤率。
而去掉秒針后,并沒有簡化模型的推理過程,說明模型在識別指針和理解角度方面存在根本性的問題。
日歷推理分析稍好。
與之相比,部分模型在日歷類任務(wù)和某些題型上表現(xiàn)更佳。
GPT-o1在CalendarQA子集中表現(xiàn)尤為突出,總體準(zhǔn)確率高達(dá)80%(見表1和圖3b)。
圖3:ClockQA與CalendarQA的錯誤分析
圖3(a)中的點表示模型預(yù)測的時間(縱軸)與真實時間(橫軸)之間的關(guān)系。黑色虛線(y=x)代表理想情況下模型預(yù)測完全正確的情況。
圖3(b)展示了各模型按年份的準(zhǔn)確率表現(xiàn)。空白柱表示該模型在對應(yīng)年份的準(zhǔn)確率為0%。
像GPT-o1和Claude-3.5等閉源模型,在處理常見節(jié)假日的問題上優(yōu)于開源模型。
這可能是因為訓(xùn)練數(shù)據(jù)中包含了這些節(jié)日的記憶模式(見圖4b)。
然而,對于一些不太知名或需要復(fù)雜計算的問題(例如「第153天」),模型的準(zhǔn)確率大幅下降,這說明偏移類推理能力難以遷移。
在這類問題上的表現(xiàn),小型或開源模型(如MiniCPM、Qwen2-VL-7B和Llama3.2-Vision)幾乎是隨機的,這一點尤為明顯。
圖4:基于問題類型與類別的ClockQA及CalendarQA分析
研究還揭示了另一個問題:當(dāng)AI在訓(xùn)練時接觸到的數(shù)據(jù)有限,特別是面對像閏年或復(fù)雜日歷計算這樣的少見現(xiàn)象時,它的表現(xiàn)就會明顯下滑。
盡管大語言模型(LLM)在訓(xùn)練中接觸過大量關(guān)于「閏年」概念的解釋,但這并不意味著它們能夠完成涉及視覺判斷的相關(guān)任務(wù)所需的推理。
這項研究強調(diào)了兩個方面的改進需求:
一是需要在訓(xùn)練數(shù)據(jù)中加入更多有針對性的示例;
二是需要重新思考AI如何處理邏輯推理與空間感知相結(jié)合的任務(wù),尤其是那些它們平時接觸不多的任務(wù)。
盡信AI,不如無AI
AI系統(tǒng)正確讀取時鐘的準(zhǔn)確率僅為38.7%,判斷日歷日期的準(zhǔn)確率則只有26.3%。
早期的系統(tǒng)通過標(biāo)注樣本進行訓(xùn)練,但讀取時鐘需要的是另一種能力——空間推理。
這可能是AI這次表現(xiàn)不佳的原因,論文作者、愛丁堡大學(xué)研究人員Rohit Saxena解釋道:
模型必須識別指針重疊、測量角度,還要適應(yīng)各種不同的表盤設(shè)計,比如羅馬數(shù)字或藝術(shù)化的刻度。
AI要認(rèn)出「這是個鐘表」相對容易,但真正讀出時間就難多了。
日期判斷同樣令人頭疼。
當(dāng)被問到日期推理問題時,AI的錯誤率也很高。比如, 「今年的第153天是星期幾?」這類問題。
這個缺陷也令人意外,因為算術(shù)本應(yīng)是計算機的基本能力之一。
但正如Saxena所解釋的那樣,AI處理算術(shù)的方式和傳統(tǒng)計算機不同:
算術(shù)對傳統(tǒng)計算機來說很簡單,但對大語言模型就不是這樣了。AI并不是運行數(shù)學(xué)算法,而是根據(jù)訓(xùn)練數(shù)據(jù)中學(xué)到的模式來預(yù)測答案。
所以它有時可以答對算術(shù)問題,但推理過程既不一致也不基于規(guī)則,而我們的研究正是揭示了這個差距。
這項研究是近年來不斷增長的一個研究方向的一部分,聚焦于AI的「理解」方式與人類理解方式之間的差異。
AI模型是通過識別熟悉的模式來得出答案的,當(dāng)訓(xùn)練數(shù)據(jù)中有足夠的示例時,它們表現(xiàn)優(yōu)秀,但在需要泛化或進行抽象推理時就會失敗。
最重要的是,研究再次提醒我們,過度依賴AI的輸出可能帶來風(fēng)險。
Saxena表示:「AI的確很強大,但當(dāng)任務(wù)既涉及感知又需要精確推理時,我們?nèi)匀恍枰M行嚴(yán)格測試、設(shè)置備用邏輯,很多情況下還必須有人類介入。」
另一名作者、愛丁堡大學(xué)博士生Aryo Pradipta Gema,則表示
如今的AI研究往往強調(diào)復(fù)雜的推理任務(wù),但具有諷刺意味的是,很多系統(tǒng)在應(yīng)對更簡單的日常任務(wù)時仍顯吃力。
我們的研究發(fā)現(xiàn)表明,現(xiàn)在已經(jīng)到了必須解決這些基礎(chǔ)能力缺陷的時候了。否則,AI在那些對時間敏感的現(xiàn)實應(yīng)用中,可能始終難以真正落地。
參考資料:
https://www.livescience.com/technology/artificial-intelligence/ai-models-cant-tell-time-or-read-a-calendar-study-reveals
https://arxiv.org/abs/2502.05092
https://www.ed.ac.uk/news/most-ai-struggles-to-read-clocks-and-calendars
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.