99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

“我沒錯!”GPT-4o嘴硬翻車,AI在黑天鵝事件面前集體宕機

0
分享至


大數據文摘出品

來自哥倫比亞大學、Vector人工智能研究所以及南洋理工大學的一個聯合研究團隊發現:人工智能模型在處理意外事件時的推理能力存在嚴重缺陷

即便是如GPT-4o和Gemini 1.5 Pro這樣的頂尖視覺語言模型(VLM),其表現也遠遜于人類,差距最高可達32%


論文地址:https://arxiv.org/pdf/2412.05725

這篇名為《黑天鵝》的研究指出,當前主流的AI評估方式普遍存在一個根本性問題:大多數基準測試圍繞“常規模式”構建,也就是說,它們聚焦于可預測、規律清晰的視覺場景。

但現實世界不按套路出牌。意外、突變和違反常識的“黑天鵝事件”無處不在。而人類之所以能處理這些狀況,依靠的是兩種核心推理能力。

第一種是溯因推理(abductive reasoning),即從有限的觀察中推斷出最可能的解釋。 例如,觀察到路口有兩輛撞壞的汽車,人們會推測是一名司機闖了紅燈。


第二種是可廢止推理(defeasible reasoning),即在新證據出現時修正最初的結論。 比如,當發現路口的交通信號燈發生故障時,人們會放棄“司機闖紅燈”的假設,轉而認為是信號燈的問題。

如果AI要成為自動駕駛汽車等領域的可靠決策者,這兩種推理能力至關重要。

“黑天鵝套件”:一個專為意外設計的考場


為了準確評估AI在意外情況下的推理能力,研究團隊構建了一個全新的基準測試,名為“BlackSwanSuite”(黑天鵝套件)。

這個基準測試包含1655個視頻,內容涵蓋了各種打破常規的真實場景,例如這些視頻涵蓋了交通事故、兒童失誤、泳池滑倒等。


研究者將每個視頻精心劃分為三個部分:事發前 (Vpre)、事發時 (Vmain)和事發后 (Vpost)。

這種結構化的處理方式,為設計針對性的推理任務奠定了基礎。 基于此,團隊設計了三大核心任務,共計超過15000個問題。

第一個任務是“預測者”(Forecaster),模型僅觀看視頻的開頭,然后被要求預測接下來會發生什么。

第二個任務是“偵探”(Detective),模型會看到事件的開頭和結尾,但中間的關鍵部分被隱藏,模型需要推斷出中間發生了什么。這項任務直接考驗模型的溯因推理能力。

第三個任務是“報告者”(Reporter),模型可以觀看完整的視頻,然后需要描述整個事件的來龍去脈。 同時,模型還需要重新評估之前基于不完整信息做出的判斷是否依然成立。這直接測試了模型的可廢止推理能力。

嚴峻的現實:頂尖模型的顯著短板


所有頂尖的AI模型,包括GPT-4o、Gemini 1.5 Pro,以及多種開源系統(如LLaVA-Video、VILA、VideoLLaMA 2),在三類任務中全面落后于人類。

在多項選擇題上,最好的模型落后人類多達25%。 在是非判斷題上,這個差距進一步擴大到了32%。

具體來看,在考驗溯因推理的“偵探”任務中,表現最好的GPT-4o,其準確率也比人類低了24.9%。

而在考驗可廢止推理的“報告者”任務中,GPT-4o與人類的差距更是達到了驚人的32%。

32個百分點的差距說明一個問題:AI不僅“看錯”,更“改不了”。


模型往往會在最初判斷后“鎖定思路”,拒絕基于新證據進行推理更新。這在自動駕駛等領域,可能帶來致命后果。

例如,論文中展示:垃圾車應該是“裝垃圾”的,但當視頻中垃圾車卻“掉下了一棵樹”,AI模型當場宕機。

再例如:一段視頻中,一名男子手持枕頭在圣誕樹旁揮舞。

GPT-4o判斷他想攻擊身邊的人。但實際情況是:枕頭碰到了圣誕樹,裝飾物從樹上掉落,砸中了旁邊的女性。

視頻結尾已清晰展示全過程,但GPT-4o依然堅持“男子攻擊他人”的原始判斷。

即便事實已推翻原猜測,模型也不做修正。這種“第一印象即終審判”的僵化思維,成了AI在現實世界中的最大隱患。

因為它找不到這個“異常行為”的參考模式。根源在于,AI模型依賴的是海量訓練樣本的“統計模式”。

它們在訓練中學習的是“什么事發生過很多次”,而不是“這事的因果關系是什么”。

所以,只要場景偏離了“常規軌跡”,它們就無法處理。為了進一步探究問題的根源,研究團隊進行了一項關鍵實驗。

他們直接向AI模型提供由人類撰寫的、對視頻內容的文字描述,從而繞過模型自身的視覺感知環節。

結果顯示,在獲得了人類級別的感知和理解輸入后,模型的推理準確率提升了高達10%

這一發現表明,當前AI的核心短板不僅在于高級推理,更在于基礎的感知和理解能力

注:頭圖AI生成

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不是蘋果!也不是華為!英偉達CEO黃仁勛本人用的手機是這款!

不是蘋果!也不是華為!英偉達CEO黃仁勛本人用的手機是這款!

王爺說圖表
2025-07-18 09:01:14
邱會作晚年曾預言,中國老百姓將面臨新的三座大山,如今一語中的

邱會作晚年曾預言,中國老百姓將面臨新的三座大山,如今一語中的

z千年歷史老號
2025-07-16 12:50:34
呂麗萍:杜蘭特開二手特斯拉 吃五塊錢漢堡 每天生活費99

呂麗萍:杜蘭特開二手特斯拉 吃五塊錢漢堡 每天生活費99

直播吧
2025-07-18 12:10:33
《掃毒風暴》陪酒女大肚腩被吐槽,網友:沒去過夜總會就別亂說

《掃毒風暴》陪酒女大肚腩被吐槽,網友:沒去過夜總會就別亂說

崽下愚樂圈
2025-07-17 11:06:24
25歲小伙娶65歲老太,一起生活10年,老太臨終遺言令他落淚

25歲小伙娶65歲老太,一起生活10年,老太臨終遺言令他落淚

第四思維
2025-07-16 13:06:40
2025年養老金調整:多數人上漲難以超過70元,比例卻超過2%!

2025年養老金調整:多數人上漲難以超過70元,比例卻超過2%!

社保小龍蝦
2025-07-17 19:14:30
香港黑人球員辱罵中國球迷,霍啟剛評論區淪陷,傳內地俱樂部解約

香港黑人球員辱罵中國球迷,霍啟剛評論區淪陷,傳內地俱樂部解約

萌神木木
2025-07-17 11:11:23
都被騙了!宗老不是色令智昏,21億信托就是他畫的一張大餅!

都被騙了!宗老不是色令智昏,21億信托就是他畫的一張大餅!

阿傖說事
2025-07-18 09:08:43
700億元收入的娃哈哈遺產爭奪大戰進入高潮!正是用錢關鍵時刻,“影子夫人”杜建英資金卻出狀況,旗下三捷系被執行3005萬,究竟發生了啥?

700億元收入的娃哈哈遺產爭奪大戰進入高潮!正是用錢關鍵時刻,“影子夫人”杜建英資金卻出狀況,旗下三捷系被執行3005萬,究竟發生了啥?

金融界
2025-07-17 20:17:05
黑猩猩的新時尚:往菊花里插草棍??大明猩起頭,剩下都學會“攪屎棍”了...

黑猩猩的新時尚:往菊花里插草棍??大明猩起頭,剩下都學會“攪屎棍”了...

英國那些事兒
2025-07-16 23:27:33
印媒:4年前,要不是中國99A坦克在路上,印軍就動真格了

印媒:4年前,要不是中國99A坦克在路上,印軍就動真格了

浩舞默畫
2025-07-18 11:01:39
每體:特爾施特根將缺席4-6個月,巴薩可用他80%薪水額度注冊新援

每體:特爾施特根將缺席4-6個月,巴薩可用他80%薪水額度注冊新援

直播吧
2025-07-18 12:23:10
直沖40℃!川渝高溫強勢霸榜 全國最熱前十占據7席

直沖40℃!川渝高溫強勢霸榜 全國最熱前十占據7席

封面新聞
2025-07-17 15:48:09
不明數量美戰機赴韓,俄方承諾保朝,中方:若半島生戰將別無選擇

不明數量美戰機赴韓,俄方承諾保朝,中方:若半島生戰將別無選擇

近史博覽
2025-07-15 16:27:53
離開大巴黎1年!恩里克棄將爆發:22球12助,1500萬身價變7500萬

離開大巴黎1年!恩里克棄將爆發:22球12助,1500萬身價變7500萬

球場沒跑道
2025-07-18 11:58:42
楊瀚森半場4+4+5+3帽全能:得分創半場新低 卻獻全能數據閃耀

楊瀚森半場4+4+5+3帽全能:得分創半場新低 卻獻全能數據閃耀

醉臥浮生
2025-07-18 09:19:52
國乒洛杉磯奧運人選初步浮現!王勵勤或有大動作,兩名球員受關注

國乒洛杉磯奧運人選初步浮現!王勵勤或有大動作,兩名球員受關注

章媸解說體育
2025-07-17 17:12:43
10年內入獄2次,爆火后“包一晚”40萬,如今的她過得怎么樣?

10年內入獄2次,爆火后“包一晚”40萬,如今的她過得怎么樣?

混沌錄
2025-07-17 22:33:44
中國小伙進阿富汗村子 被一堆小孩扔石頭,被砸到襠部后 暴怒反擊

中國小伙進阿富汗村子 被一堆小孩扔石頭,被砸到襠部后 暴怒反擊

興史興談
2025-07-16 17:02:59
被傳拒絕出席93閱兵后,李在明打破沉默,希望美別誤解他“親華”

被傳拒絕出席93閱兵后,李在明打破沉默,希望美別誤解他“親華”

掌青說歷史
2025-07-18 11:41:58
2025-07-18 14:28:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6702文章數 94441關注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

宗慶后三弟:宗馥莉就是她自己 根本不和宗家人來往

頭條要聞

宗慶后三弟:宗馥莉就是她自己 根本不和宗家人來往

體育要聞

楊瀚森4戰43+20+15+9帽:開拓者4戰3勝

娛樂要聞

演員曹駿被曝新戀情?和女生舉止親密

財經要聞

美國國會正式批準穩定幣法案

汽車要聞

哈弗大狗2026款上市 限時權益價9.89萬元起

態度原創

時尚
藝術
本地
教育
軍事航空

“Polo衫+牛仔褲”今年火爆了,這樣穿時髦松弛又減齡!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

教育要聞

學簽放寬+工簽延長!新西蘭悄悄成為留學性價比新黑馬!

軍事要聞

美國稱不支持以色列近期在敘利亞的行動

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高清| 吉首市| 抚宁县| 蒲城县| 河间市| 新郑市| 保定市| 德惠市| 遂平县| 锦屏县| 思茅市| 麻阳| 五常市| 广水市| 洱源县| 贡嘎县| 湟源县| 喀什市| 瑞丽市| 长垣县| 合江县| 洪湖市| 赣州市| 漠河县| 包头市| 班玛县| 姚安县| 富裕县| 陕西省| 卫辉市| 荃湾区| 钦州市| 临安市| 贵南县| 淮安市| 连山| 宁陵县| 阳泉市| 呈贡县| 射阳县| 威信县|