99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LLM又曝致命缺陷:根本不會看時鐘!博士驚呆,準(zhǔn)確率不及50%

0
分享至


新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】AI能寫論文、畫圖、考高分,但連「看表讀時間」「今天是星期幾」都錯得離譜?最新研究揭示了背后驚人的認(rèn)知缺陷,提醒我們:AI很強大,但精確推理還離不開人類。

有些任務(wù)對人類來說輕而易舉,但AI頻頻出錯。

比如,單詞「strawberry」中有幾個字母「r」一度難倒一眾頂尖LLM。

最新的研究揭示:看鐘表或日歷,對AI來說也很難。


圖1:在測試實例中,6款大模型均無法正確讀取指針式時鐘,僅2款能理解日歷

來自英國愛丁堡大學(xué)等機構(gòu)的研究者,揭示了這個令人深思的AI現(xiàn)象。

他們模擬了時鐘和年歷,系統(tǒng)考察了多模態(tài)語言大模型(MLLM)解讀時間與日期的能力。

結(jié)果令人失望:

AI系統(tǒng)讀取時鐘的準(zhǔn)確率僅為38.7%,判斷日歷日期的準(zhǔn)確率則只有26.3%

在ICLR 2025的LLM推理與規(guī)劃研討會(ICLR 2025 Workshop on Reasoning and Planning for LLMs)上,他們展示了這些LLM出人意料的缺陷。


論文鏈接:https://arxiv.org/abs/2502.05092

為了探究MLLMs處理時間任務(wù)的能力,他們我們構(gòu)建了精確定制的測試集,包含兩個子集:ClockQA和CalendarQA。

ClockQA涵蓋了六類模擬時鐘圖像(含羅馬數(shù)字、缺失秒針及不同表盤顏色等變體)及其對應(yīng)的時間問題;

CalendarQA包含了十年的年歷圖像,問題設(shè)置從簡單到復(fù)雜:

元旦是星期幾?

3月15日是星期幾?

當(dāng)年的第153天是哪天?


圖2:DateTimeReasoning任務(wù)概覽及其兩個主要子集:ClockQA和CalendarQA

雖然數(shù)據(jù)集規(guī)模較小,但它的設(shè)計能有效探測時間推理、視覺解析和日期/時間推斷的核心維度。

初步發(fā)現(xiàn)表明:盡管某些模型在時鐘讀時或日歷問答中展現(xiàn)潛力,但根本問題依然存在。

其中,在時鐘讀時中,Gemini-2.0的時分針誤差較低;在日歷問答中,o1模型的準(zhǔn)確率最高。


詳細(xì)結(jié)果

表1總結(jié)了各模型在兩個任務(wù)中的表現(xiàn)。

ClockQA任務(wù)中,Gemini-2.0取得了最高的精確匹配(Exact Match, EM)分?jǐn)?shù)(22.58%)和最小的小時/分鐘誤差,顯示出其在理解時鐘方面相較其他模型更具優(yōu)勢。

然而,整體的EM分?jǐn)?shù)仍然偏低,說明多模態(tài)大語言模型(MLLMs)在讀表任務(wù)上依舊存在明顯困難

相比之下,GPT-o1CalendarQA任務(wù)中表現(xiàn)突出,準(zhǔn)確率達(dá)到80%,展現(xiàn)出其在日期運算和邏輯推理方面的強大能力。其他模型則明顯落后,表明日期計算和結(jié)構(gòu)化布局解析仍然是AI面臨的難點。

整體而言,除了GPT-o1在CalendarQA中的高表現(xiàn)外,其余模型在ClockQA和CalendarQA兩個任務(wù)中的總體表現(xiàn)都不理想


表1:各模型在時鐘任務(wù)(左)和日歷任務(wù)(右)中的表現(xiàn)。↑表示數(shù)值越高越好;↓表示數(shù)值越低越好

鐘表讀時任務(wù)仍容易出錯。

在ClockQA子集中,模型的表現(xiàn)明顯不如日歷類問題(見表1)。

圖4a和圖3a顯示,即使是在標(biāo)準(zhǔn)表盤下,模型的表現(xiàn)仍較差,有些模型甚至傾向于給出某個「默認(rèn)」時間。

使用羅馬數(shù)字或風(fēng)格化的指針會進一步增加錯誤率。

而去掉秒針后,并沒有簡化模型的推理過程,說明模型在識別指針和理解角度方面存在根本性的問題。

日歷推理分析稍好。

與之相比,部分模型在日歷類任務(wù)和某些題型上表現(xiàn)更佳。

GPT-o1在CalendarQA子集中表現(xiàn)尤為突出,總體準(zhǔn)確率高達(dá)80%(見表1和圖3b)。


圖3:ClockQA與CalendarQA的錯誤分析

圖3(a)中的點表示模型預(yù)測的時間(縱軸)與真實時間(橫軸)之間的關(guān)系。黑色虛線(y=x)代表理想情況下模型預(yù)測完全正確的情況。

圖3(b)展示了各模型按年份的準(zhǔn)確率表現(xiàn)。空白柱表示該模型在對應(yīng)年份的準(zhǔn)確率為0%。

像GPT-o1和Claude-3.5等閉源模型,在處理常見節(jié)假日的問題上優(yōu)于開源模型。

這可能是因為訓(xùn)練數(shù)據(jù)中包含了這些節(jié)日的記憶模式(見圖4b)。

然而,對于一些不太知名或需要復(fù)雜計算的問題(例如「第153天」),模型的準(zhǔn)確率大幅下降,這說明偏移類推理能力難以遷移。

在這類問題上的表現(xiàn),小型或開源模型(如MiniCPM、Qwen2-VL-7B和Llama3.2-Vision)幾乎是隨機的,這一點尤為明顯。


圖4:基于問題類型與類別的ClockQA及CalendarQA分析

研究還揭示了另一個問題:當(dāng)AI在訓(xùn)練時接觸到的數(shù)據(jù)有限,特別是面對像閏年或復(fù)雜日歷計算這樣的少見現(xiàn)象時,它的表現(xiàn)就會明顯下滑。

盡管大語言模型(LLM)在訓(xùn)練中接觸過大量關(guān)于「閏年」概念的解釋,但這并不意味著它們能夠完成涉及視覺判斷的相關(guān)任務(wù)所需的推理。

這項研究強調(diào)了兩個方面的改進需求

一是需要在訓(xùn)練數(shù)據(jù)中加入更多有針對性的示例;

二是需要重新思考AI如何處理邏輯推理與空間感知相結(jié)合的任務(wù),尤其是那些它們平時接觸不多的任務(wù)。

盡信AI,不如無AI

AI系統(tǒng)正確讀取時鐘的準(zhǔn)確率僅為38.7%,判斷日歷日期的準(zhǔn)確率則只有26.3%。

早期的系統(tǒng)通過標(biāo)注樣本進行訓(xùn)練,但讀取時鐘需要的是另一種能力——空間推理。

這可能是AI這次表現(xiàn)不佳的原因,論文作者、愛丁堡大學(xué)研究人員Rohit Saxena解釋道:

模型必須識別指針重疊、測量角度,還要適應(yīng)各種不同的表盤設(shè)計,比如羅馬數(shù)字或藝術(shù)化的刻度。

AI要認(rèn)出「這是個鐘表」相對容易,但真正讀出時間就難多了。


日期判斷同樣令人頭疼。

當(dāng)被問到日期推理問題時,AI的錯誤率也很高。比如, 「今年的第153天是星期幾?」這類問題。

這個缺陷也令人意外,因為算術(shù)本應(yīng)是計算機的基本能力之一。

但正如Saxena所解釋的那樣,AI處理算術(shù)的方式和傳統(tǒng)計算機不同:

算術(shù)對傳統(tǒng)計算機來說很簡單,但對大語言模型就不是這樣了。AI并不是運行數(shù)學(xué)算法,而是根據(jù)訓(xùn)練數(shù)據(jù)中學(xué)到的模式來預(yù)測答案。

所以它有時可以答對算術(shù)問題,但推理過程既不一致也不基于規(guī)則,而我們的研究正是揭示了這個差距。

這項研究是近年來不斷增長的一個研究方向的一部分,聚焦于AI的「理解」方式與人類理解方式之間的差異。

AI模型是通過識別熟悉的模式來得出答案的,當(dāng)訓(xùn)練數(shù)據(jù)中有足夠的示例時,它們表現(xiàn)優(yōu)秀,但在需要泛化或進行抽象推理時就會失敗

最重要的是,研究再次提醒我們,過度依賴AI的輸出可能帶來風(fēng)險

Saxena表示:「AI的確很強大,但當(dāng)任務(wù)既涉及感知又需要精確推理時,我們?nèi)匀恍枰M行嚴(yán)格測試、設(shè)置備用邏輯,很多情況下還必須有人類介入。」


另一名作者、愛丁堡大學(xué)博士生Aryo Pradipta Gema,則表示

如今的AI研究往往強調(diào)復(fù)雜的推理任務(wù),但具有諷刺意味的是,很多系統(tǒng)在應(yīng)對更簡單的日常任務(wù)時仍顯吃力。

我們的研究發(fā)現(xiàn)表明,現(xiàn)在已經(jīng)到了必須解決這些基礎(chǔ)能力缺陷的時候了。否則,AI在那些對時間敏感的現(xiàn)實應(yīng)用中,可能始終難以真正落地。

參考資料:

https://www.livescience.com/technology/artificial-intelligence/ai-models-cant-tell-time-or-read-a-calendar-study-reveals

https://arxiv.org/abs/2502.05092

https://www.ed.ac.uk/news/most-ai-struggles-to-read-clocks-and-calendars

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

醫(yī)學(xué)博士:腫瘤越來越高發(fā),我們究竟被隱瞞了什么?

深度報
2025-05-19 09:41:37
借給同事2W,他還時只給了19980,說:“你微信轉(zhuǎn)給我的,提現(xiàn)費20,所以扣掉了”

借給同事2W,他還時只給了19980,說:“你微信轉(zhuǎn)給我的,提現(xiàn)費20,所以扣掉了”

純潔的微笑
2025-05-16 19:32:19
注意,2025年6月起,中國或?qū)⒂瓉?大降價潮,這些東西要降價了

注意,2025年6月起,中國或?qū)⒂瓉?大降價潮,這些東西要降價了

美家指南
2025-05-16 10:48:38
與曼聯(lián)競爭!巴薩盯上32歲門神:大心臟球員,身價2500萬

與曼聯(lián)競爭!巴薩盯上32歲門神:大心臟球員,身價2500萬

葉青足球世界
2025-05-19 15:30:33
特朗普喊話中國,“兩岸統(tǒng)一”要提上日程

特朗普喊話中國,“兩岸統(tǒng)一”要提上日程

奇聞異評
2025-05-18 12:00:03
高手在民間!30個“野路子”發(fā)明,讓工程師沉默了

高手在民間!30個“野路子”發(fā)明,讓工程師沉默了

林子說事
2025-05-18 16:16:09
美女半夜欲跳河輕生,被一男子攔住,男子咧嘴:反正你都不想活了

美女半夜欲跳河輕生,被一男子攔住,男子咧嘴:反正你都不想活了

溫情郵局
2025-05-08 15:33:15
計劃生育政策,說好一百年不變,短短幾年時間,竟從處罰變?yōu)楠剟?>
    </a>
        <h3>
      <a href=戶外釣魚哥阿勇
2025-05-19 12:43:46
中央定調(diào),2025年養(yǎng)老金調(diào)增!月入2000元工齡20年,能漲100元?

中央定調(diào),2025年養(yǎng)老金調(diào)增!月入2000元工齡20年,能漲100元?

王五說說看
2025-05-18 09:33:50
考編母子誤機,飛機不等人后母親大鬧機場,下跪磕頭祈求

考編母子誤機,飛機不等人后母親大鬧機場,下跪磕頭祈求

映射生活的身影
2025-05-18 17:39:56
銀川本周高溫打頭陣,陣雨、雷陣雨也在路上!

銀川本周高溫打頭陣,陣雨、雷陣雨也在路上!

魯中晨報
2025-05-19 16:13:06
查爾斯國王含淚警告威廉王子:別像我一樣,抱憾終生!

查爾斯國王含淚警告威廉王子:別像我一樣,抱憾終生!

全球奇趣娛樂八卦
2025-05-18 15:08:11
最高溫沖32℃,一大波雨在候場;滬上84%重點人群都簽了,享受這些服務(wù)

最高溫沖32℃,一大波雨在候場;滬上84%重點人群都簽了,享受這些服務(wù)

上觀新聞
2025-05-19 07:31:02
印巴剛停火,一個特大噩耗傳來?印度徹底崩潰,中國不按常理出牌

印巴剛停火,一個特大噩耗傳來?印度徹底崩潰,中國不按常理出牌

泠泠說史
2025-05-18 15:41:49
中共中央、國務(wù)院:黨政機關(guān)工作會議一律不擺花草、不制作背景板

中共中央、國務(wù)院:黨政機關(guān)工作會議一律不擺花草、不制作背景板

新京報
2025-05-18 22:55:01
裁員 20000 人。

裁員 20000 人。

純潔的微笑
2025-05-19 12:37:44
又是重慶!永輝超市后,徐鼎盛“反向抹零”也“遭”了

又是重慶!永輝超市后,徐鼎盛“反向抹零”也“遭”了

正經(jīng)社
2025-05-19 09:36:49
湖北宜化:重大資產(chǎn)重組方案獲宜昌市國資委原則同意

湖北宜化:重大資產(chǎn)重組方案獲宜昌市國資委原則同意

界面新聞
2025-05-19 15:55:14
取得虛開發(fā)票超過五年的不予追繳、處罰

取得虛開發(fā)票超過五年的不予追繳、處罰

劉天永稅務(wù)律師
2025-05-13 09:32:24
官方認(rèn)證!殲10-CE首次實戰(zhàn)戰(zhàn)果!

官方認(rèn)證!殲10-CE首次實戰(zhàn)戰(zhàn)果!

聽風(fēng)的蠶
2025-05-19 15:27:12
2025-05-19 16:47:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12728文章數(shù) 66036關(guān)注度
往期回顧 全部

科技要聞

首款鴻蒙折疊電腦發(fā)布

頭條要聞

男子生產(chǎn)的螺母被認(rèn)定槍支散件 檢方建議量刑10年以上

頭條要聞

男子生產(chǎn)的螺母被認(rèn)定槍支散件 檢方建議量刑10年以上

體育要聞

1場3次爭議判罰!梅西炮轟美職聯(lián)裁判

娛樂要聞

S媽首次回應(yīng)被指控偷大s珠寶一事

財經(jīng)要聞

廣州、廈門等地銀行逆勢上調(diào)首套房利率

汽車要聞

雷軍官宣:小米首款SUV YU7 5月22日發(fā)布

態(tài)度原創(chuàng)

家居
教育
藝術(shù)
數(shù)碼
時尚

家居要聞

暗色工業(yè) 簡約的設(shè)計美學(xué)

教育要聞

親子齊運動 相伴共成長——青島第五十三中學(xué)基礎(chǔ)學(xué)部四(7)“百花中隊”戶外親子運動課堂活動

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

鴻蒙折疊電腦搭載全球最大尺寸鉸鏈 完美實現(xiàn)閉合無縫

讓世界為中國文物駐足,他們都做了什么?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 兴义市| 塔河县| 大新县| 怀仁县| 庐江县| 花莲市| 衡东县| 和静县| 广昌县| 息烽县| 偏关县| 鹿邑县| 咸阳市| 襄垣县| 来安县| 东莞市| 榆林市| 普洱| 瑞安市| 从化市| 安多县| 关岭| 唐山市| 饶河县| 上虞市| 津南区| 阿坝| 长子县| 正镶白旗| 枣庄市| 蒙阴县| 清流县| 富阳市| 古交市| 巴里| 明溪县| 佛教| 彭阳县| 宁南县| 嘉禾县| 南丰县|