99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

“我沒錯!”GPT-4o嘴硬翻車,AI在黑天鵝事件面前集體宕機

0
分享至


大數據文摘出品

來自哥倫比亞大學、Vector人工智能研究所以及南洋理工大學的一個聯合研究團隊發現:人工智能模型在處理意外事件時的推理能力存在嚴重缺陷

即便是如GPT-4o和Gemini 1.5 Pro這樣的頂尖視覺語言模型(VLM),其表現也遠遜于人類,差距最高可達32%。


論文地址:https://arxiv.org/pdf/2412.05725

這篇名為《黑天鵝》的研究指出,當前主流的AI評估方式普遍存在一個根本性問題:大多數基準測試圍繞“常規模式”構建,也就是說,它們聚焦于可預測、規律清晰的視覺場景。

但現實世界不按套路出牌。意外、突變和違反常識的“黑天鵝事件”無處不在。而人類之所以能處理這些狀況,依靠的是兩種核心推理能力。

第一種是溯因推理(abductive reasoning),即從有限的觀察中推斷出最可能的解釋。 例如,觀察到路口有兩輛撞壞的汽車,人們會推測是一名司機闖了紅燈。


第二種是可廢止推理(defeasible reasoning),即在新證據出現時修正最初的結論。 比如,當發現路口的交通信號燈發生故障時,人們會放棄“司機闖紅燈”的假設,轉而認為是信號燈的問題。

如果AI要成為自動駕駛汽車等領域的可靠決策者,這兩種推理能力至關重要。

“黑天鵝套件”:一個專為意外設計的考場


為了準確評估AI在意外情況下的推理能力,研究團隊構建了一個全新的基準測試,名為“BlackSwanSuite”(黑天鵝套件)。

這個基準測試包含1655個視頻,內容涵蓋了各種打破常規的真實場景,例如這些視頻涵蓋了交通事故、兒童失誤、泳池滑倒等。


研究者將每個視頻精心劃分為三個部分:事發前 (Vpre)、事發時 (Vmain)和事發后 (Vpost)。

這種結構化的處理方式,為設計針對性的推理任務奠定了基礎。 基于此,團隊設計了三大核心任務,共計超過15000個問題。

第一個任務是“預測者”(Forecaster),模型僅觀看視頻的開頭,然后被要求預測接下來會發生什么。

第二個任務是“偵探”(Detective),模型會看到事件的開頭和結尾,但中間的關鍵部分被隱藏,模型需要推斷出中間發生了什么。這項任務直接考驗模型的溯因推理能力。

第三個任務是“報告者”(Reporter),模型可以觀看完整的視頻,然后需要描述整個事件的來龍去脈。 同時,模型還需要重新評估之前基于不完整信息做出的判斷是否依然成立。這直接測試了模型的可廢止推理能力。

嚴峻的現實:頂尖模型的顯著短板


所有頂尖的AI模型,包括GPT-4o、Gemini 1.5 Pro,以及多種開源系統(如LLaVA-Video、VILA、VideoLLaMA 2),在三類任務中全面落后于人類。

在多項選擇題上,最好的模型落后人類多達25%。 在是非判斷題上,這個差距進一步擴大到了32%。

具體來看,在考驗溯因推理的“偵探”任務中,表現最好的GPT-4o,其準確率也比人類低了24.9%。

而在考驗可廢止推理的“報告者”任務中,GPT-4o與人類的差距更是達到了驚人的32%。

32個百分點的差距說明一個問題:AI不僅“看錯”,更“改不了”。


模型往往會在最初判斷后“鎖定思路”,拒絕基于新證據進行推理更新。這在自動駕駛等領域,可能帶來致命后果。

例如,論文中展示:垃圾車應該是“裝垃圾”的,但當視頻中垃圾車卻“掉下了一棵樹”,AI模型當場宕機。

再例如:一段視頻中,一名男子手持枕頭在圣誕樹旁揮舞。

GPT-4o判斷他想攻擊身邊的人。但實際情況是:枕頭碰到了圣誕樹,裝飾物從樹上掉落,砸中了旁邊的女性。

視頻結尾已清晰展示全過程,但GPT-4o依然堅持“男子攻擊他人”的原始判斷。

即便事實已推翻原猜測,模型也不做修正。這種“第一印象即終審判”的僵化思維,成了AI在現實世界中的最大隱患。

因為它找不到這個“異常行為”的參考模式。根源在于,AI模型依賴的是海量訓練樣本的“統計模式”。

它們在訓練中學習的是“什么事發生過很多次”,而不是“這事的因果關系是什么”。

所以,只要場景偏離了“常規軌跡”,它們就無法處理。為了進一步探究問題的根源,研究團隊進行了一項關鍵實驗。

他們直接向AI模型提供由人類撰寫的、對視頻內容的文字描述,從而繞過模型自身的視覺感知環節。

結果顯示,在獲得了人類級別的感知和理解輸入后,模型的推理準確率提升了高達10%。

這一發現表明,當前AI的核心短板不僅在于高級推理,更在于基礎的感知和理解能力

注:頭圖AI生成

作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!

GPU 訓練特惠!

H100/H200 GPU算力按秒計費,平均節省開支30%以上!

掃碼了解詳情?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中美俄幡然醒悟!原來真正吸血的是歐洲人,如今他們終于要還債了

中美俄幡然醒悟!原來真正吸血的是歐洲人,如今他們終于要還債了

通文知史
2025-07-22 21:55:02
越深愛,越別扭,這三大星座太難懂

越深愛,越別扭,這三大星座太難懂

星座不求人
2025-07-23 21:10:11
國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

風口招財豬
2025-07-24 01:13:10
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
170萬觀眾打出9.7分,沒上映票房破6200萬,大鵬的冠軍保不住了?

170萬觀眾打出9.7分,沒上映票房破6200萬,大鵬的冠軍保不住了?

靠譜電影君
2025-07-22 23:32:19
工齡40年11個月,個人賬戶21.67萬,上海大爺拿了多少養老金呢?

工齡40年11個月,個人賬戶21.67萬,上海大爺拿了多少養老金呢?

養老規劃羅姐說
2025-07-22 19:03:14
最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

伊人河畔
2025-07-12 10:13:49
福建廳干游祖煙履新

福建廳干游祖煙履新

魯中晨報
2025-07-22 07:52:08
48歲陶紅因病去世,9歲女兒一路跪拜祈福,與樂嘉婚姻僅維系3年……

48歲陶紅因病去世,9歲女兒一路跪拜祈福,與樂嘉婚姻僅維系3年……

不二大叔
2025-07-15 21:45:47
為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

博覽歷史
2025-07-22 15:20:03
谷歌母公司二季度業績超預期,提高全年資本支出至850億美元,盤后一度漲3.4% | 財報見聞

谷歌母公司二季度業績超預期,提高全年資本支出至850億美元,盤后一度漲3.4% | 財報見聞

華爾街見聞官方
2025-07-24 05:42:19
女籃眾將發文告別!4朝元老有意宣退,王思雨晚上發文不甘心

女籃眾將發文告別!4朝元老有意宣退,王思雨晚上發文不甘心

凡知
2025-07-23 16:09:34
發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
記者:劉誠宇可能不具備踢點球的大心臟,鎮定、決斷都還有待提高

記者:劉誠宇可能不具備踢點球的大心臟,鎮定、決斷都還有待提高

直播吧
2025-07-23 22:29:22
南京德基廣場偶遇鹿晗,本人個子不高好瘦小,白皮紅發漫畫感十足

南京德基廣場偶遇鹿晗,本人個子不高好瘦小,白皮紅發漫畫感十足

喜歡歷史的阿繁
2025-07-23 18:08:41
3年1.6億,恭喜湖人,交易非常成功,詹姆斯該開心了

3年1.6億,恭喜湖人,交易非常成功,詹姆斯該開心了

青山隱隱啊
2025-07-23 10:33:05
云南高校在云南遇冷:農大缺額152人、師大缺72人、昆工缺69人!

云南高校在云南遇冷:農大缺額152人、師大缺72人、昆工缺69人!

凱旋學長
2025-07-23 21:52:37
女籃逆襲殺進世大運決賽!李筍南完爆宮魯鳴:中國隊主帥該試試他

女籃逆襲殺進世大運決賽!李筍南完爆宮魯鳴:中國隊主帥該試試他

籃球快餐車
2025-07-24 05:16:28
高喊“打倒民營經濟”的是他,高喊“支持民營經濟”的還是他

高喊“打倒民營經濟”的是他,高喊“支持民營經濟”的還是他

深度報
2025-07-12 23:26:48
巴西巨星太瀟灑,約三女海邊度假,與皇馬續約談判已宣告破裂!

巴西巨星太瀟灑,約三女海邊度假,與皇馬續約談判已宣告破裂!

綠茵舞著
2025-07-24 00:14:40
2025-07-24 06:31:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6707文章數 94446關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

手機
親子
本地
時尚
公開課

手機要聞

4699華為Pura80預售開啟,絲絨小直屏

親子要聞

想讓孩子長高,這兩種飯千萬不要喂!

本地新聞

這雙丑鞋“泰”辣眼,跪求內娛不要抄作業

搶戲《醬園弄》、尬演《長安荔枝》,雷佳音的舒適圈正在反噬

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 额敏县| 固阳县| 新营市| 齐河县| 北海市| 乡城县| 昌宁县| 体育| 舟山市| 临武县| 格尔木市| 柏乡县| 祁门县| 靖安县| 新田县| 沂水县| 阳信县| 明溪县| 嵊州市| 新泰市| 合肥市| 涟水县| 广灵县| 屏东县| 当阳市| 无为县| 海安县| 长顺县| 古蔺县| 昌乐县| 灯塔市| 毕节市| 仙游县| 广南县| 灵璧县| 宜川县| 沂水县| 柞水县| 方城县| 阿瓦提县| 天门市|