99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

兩張圖定位全球,o3碾壓T0級高手!人類「詭計」被看穿,跨模態推理爆表

0
分享至


新智元報道

編輯:定慧

【新智元導讀】o3推理有多強?猜圖大師Sam Patterson偽造GPS坐標想套路OpenAI o3,AI僅憑兩張90°視圖鎖定地點,以23179分勝人類22054。假EXIF被AI識破,AI跨模態推理潛力呼之欲出,「視覺+搜索+思維鏈」正在改寫人機博弈。

OpenAI的o3有點「神了」,不僅勝過人類,還識別了人類的詭計。

只需要隨便上傳一張照片,o3就能猜個八九不離十,準確率高的嚇人。

但很多高手猜測o3是不是調用了用戶本地的地理信息,或者是照片自帶的EXIF信息,直接「作弊」。


不過剛剛的一場比賽,讓這些質疑「不攻自破」。

在這場GeoGuessr游戲中,選手直接將假的GPS坐標植入到圖像的EXIF中!

本以為能「騙過」o3!

但o3主動忽略了這個錯誤信息,并且通過「觀察」真實圖片,精確定位了實際位置。

o3通過圖片正確識別了所有5個國家,并且有兩次將精度準確到幾百米內!

和o3比賽的Sam Patterson是一名大師級玩家,這場AI和人類的比賽最終以AI獲勝告終——比分定格在23179比22054。


在這場游戲比賽中,o3就像人類一樣,真正的通過視覺能力+實時網絡搜索來推理,而不是調取圖片文件的數據信息來「作弊」。

AI的跨模態推理潛力才剛剛顯現!

勝過人類的推理能力

廢話不多說,直接上比賽,這場AI和人類的比賽一共進行了5場,AI方的出場選手就是o3,人類這邊就是Sam Patterson本人。

首先Sam Patterson設置了幾個GeoGuessr比賽條件(詳情見文末):

  • 模式:無移動。人類看到了完整的街景全景(如下動圖所示);o3卻只能看正好兩個90°的截圖(起始 + 相反方向)。

  • 瀏覽/工具:o3啟用了正常的網絡訪問。沒有EXIF在PNGs中;為了欺騙測試,將文件壓縮以確保元數據在上傳中保存下來。

  • 計分:標準Geoguessr,每輪0–5,000分,總分25,000分。


下面跟隨Sam Patterson的視角來看看在這場比賽中到底是人類厲害,還是AI更勝一籌。

第一輪比賽:真實地點-保加利亞

第一輪比賽內容:一張帶有明顯建筑風格的路口照片。


Sam Patterson的第一個想法這是歐洲的土耳其。

然后,他放大了圖片中央的屋頂細節,99%確認了這是保加利亞。

因為這些瓦片屋頂的風格,以及帶有向上鉤的混凝土電線桿都是保加利亞的風格。

o3也很快給出了它的判斷:保加利亞-南部—位于斯莫利亞省的羅多彼山脈小城鎮扎拉托格拉德。(太細了)

那最終結果呢?


第一輪Sam更接近真實地點,但AI和人類的結果差距不大,Sam只領先大約100點得分。

第二輪比賽:真實地點-奧地利

第二輪比賽內容:像是一個歐洲小鎮的圖片。


Sam Patterson一眼看到了車牌是.at結尾,這個題目變得容易了,結合建筑看起來很像瑞士或者奧地利。

但實際距離差距很遠,差了380公里。

人類是通過車牌來逆向推理,AI會怎么做?

o3最終給出了答案:Dornbirn, Vorarlberg, Austria — 大約 47.41 N 9.73 E(城鎮中心東北幾個街區的住宅支路)。

o3給出了詳細的線索和推理過程,這個過程中允許o3使用了搜索功能。


最終o3的猜測和正確位置只相差了325m!


如果不依賴網絡搜索o3還能猜出位置嗎?

在Sam Patterson要求o3不搜索后,o3利用圖片特征和本身的數據知識也猜對了。


綜合起來,建筑特點、奧地利的領域,以及那非常易識別的山脈輪廓,使o3認為Dornbirn是最佳選擇。


第三輪比賽:真實地點-愛爾蘭

第三輪比賽內容:一張像是高速路邊的圖片。


作為人類的Sam Patterson的想法是,路邊的黃色虛線非常罕見,并且有這個地形和白色歐洲車牌,100%是愛爾蘭。

愛爾蘭哪里?畫面的左邊是開闊的海洋,但西北方向有遙遠的陸地,也許是西南方向的一個島嶼?

該o3出場了,允許調用搜索的o3可以根據那片突兀的灰色石灰巖、無盡的低矮干石墻,以及標志著愛爾蘭道路左側路肩的黃色虛線,直接判斷:你正在Burren,County Clare,Ireland。

甚至給出了更精確的坐標:這個視角來自 R477 “海岸路”,位于 Fanore 和 Ballyvaughan 之間,就在 Black Head 的東南方向,越過 Galway Bay,望向 Connemara 的山丘。

大約的位置標記:53.120° N, -9.285° W。

然后真實結果如下:太離譜了!o3的結果和真實位置幾乎相差無幾!


第四輪比賽:真實地點-哥倫比亞

第四輪比賽內容:一張像是鄉村公路的圖片。


Sam的第一個想法這是南美洲,道路看起來像是巴西,隨后注意到車牌,是黃色——這意味著肯定是哥倫比亞。

然后繼續掃描,放大后發現了經典的哥倫比亞的十字架。具體是哪里,作為人類的Sam還在猶豫。

o3認為這看起來像哥倫比亞的農村地區——特別是連接Sincelejo和Caucasia的炎熱、低洼的加勒比平原走廊。

o3給出了一些線索。


這一次的較量似乎勢均力敵,o3要稍微準確一些。


第五輪比賽:真實地點-斯洛伐克

第五輪比賽內容:一張沒有任何特征的公路的圖片。


這張圖似乎要比上邊的四輪比賽的都稍微難度高一些。

Sam第一反應這是歐洲的中部或者東部。

放大圖片后,他看到了幾個路標——畫面的最左側,以及道路最前方。

但是實在是模糊,很難確認,Sam最終的猜測結果確實離真實距離很遠,超過了336公里。


o3遇到了和人類相同的問題:放大后也看不清圖片中的內容。


o3最終給出了他的猜測:斯洛伐克西南部農村——多瑙河低地,在國家道路63上,沙莫林以東東南幾公里(≈ 48.03 N, 17.40 E)。

并且o3給出了很多的推理細節。


那最終結果呢?


這一次o3在面對信息量同樣很少的情況下,略微遜色于人類的直覺。

要知道Sam Patterson可是大師級的玩家,在這種競技類游戲中,直覺往往決定了勝負。

最終5輪過后人類Sam Patterson獲得了22054分。


而o3獲得了23179分,總分都是25000分。


最終的結果對比中能夠看到,o3有兩次幾乎取得了滿分。


在這場人類敗北的比賽中,值得人類唯一欣慰的就是,游戲花費時間!

Sam Patterson通常是需要花1-2分鐘,而o3往往需要數分鐘,最長的一次超過了6分鐘。

所以在速度方面,人類目前仍然占優勢。

但要記住,這個優勢是建立在o3只獲得了兩張截圖,而人類是可以360度查看圖片的(如同在導航APP中一樣)。

人類的心機:EXIF偽造

為了「打敗」AI,人類稍微耍了一個小小的心機。

Sam Patterson替換了真實圖像的元數據,并應用到截圖中。

沒想到,o3根本沒有提到EXIF數據,而當問到為何不參考EXIF的信息時,o3是這么回答的:

「你給我的數據和圖片中真實場景相差甚遠,不予考慮!」


o3似乎太聰明了!

不會輕易被偽造的GPS數據欺騙。

AI發現了數據和真實之間明顯的矛盾。

o3不僅僅查看元數據,它還會審查圖像,而且它在這方面非常出色。

由此想到,推理模型的CoT是否真的存在?

從Sam Patterson的這5次比賽中,確實證明AI具有推理能力,而且這種能力不是什么「小把戲」。

不得不感嘆,跨模態AI的推理過程之縝密,幾乎挑不出毛病

AI看圖猜地點事件始末

其實使用Geoguessr來檢驗AI的推理能力還可以往前追溯一些。

o3推出不久,Django Web大神Simon Wilson發現,o3憑借調用Python代碼,就能破解照片的地理位置。

這個話題就像GPT-4o的原生圖像能力一樣引爆網絡,因為太好玩了!


大家紛紛上傳自己的照片,讓o3猜一下這是哪里,沒想到o3基本上沒有怎么翻車!


本文的主人公,也就是Sam Patterson當時也留言說自己是一名高水平的GeoGuessr玩家,很想和o3切磋一下。


他的留言還促使Simon Wilson專門寫了篇博客來介紹o3的這個能力。

不過這個帖子發出后,也引來一些同樣「高玩」的質疑,畢竟是專業的:


Sam Patterson認為這個判斷有幾分道理。

因為AI讀取圖片的EXIF信息很容易,并且Sam Patterson也分享了他的一個經驗。

去年我參與了一個AI安全獎學金項目,我們的項目是創建一個基準,用于評估AI模型從圖像中進行地理定位的性能。[這就是我開始迷上 Geoguessr 的地方!]

我們的第一次運行顯示的結果似乎好得令人難以置信;甚至那些糟糕的開源模型也能準確猜中一些困難的位置,而且在小分辨率下也是如此。

結果證明,我們用于獲取圖像的管道在文件名中包含了位置數據,而模型使用了這些信息。

不過,當把主角換成o3之后,這種靠讀取EXIF來偽裝成「高手」的說法,就不一定能站得住腳了。

于是他決定讓AI真刀真槍進行一場對決,對手就是Master I級別的Geoguessr玩家——Sam本人!

于是就有了以上的5輪比賽,并且以o3獲勝告終。

Geoguessr意外走紅,AI推理能力「試金石」

上面提到的GeoGuessr是一款風靡全球的地理猜圖游戲:玩家根據街景照片猜測拍攝地點。

這考驗玩家的邏輯推理、知識儲備和地理測算等多種能力。

比如隨機給定一張圖片,你需要通過圖片的中文字、日光角度、建筑風格和車輛的特征(比如車牌屬于哪個國家等)來判斷這是南半球還是北半球,這是南美還是中歐。


然后根據推理結果在地圖上打點確認猜測結果,如果結果和真實位置離得越近,得分就越高。

比如上面我猜測結果和真實結果意大利相距很遠,得分只有91分。另一輪中,因為都在南美,得分就有1450分。



另外一點就是,選擇Geoguessr,也是因為Sam Patterson表示他有足夠的知識來判斷模型的能力,以及查看它輸出的思維鏈推理是否合理,還是只是胡說八道。

從ChatGPT早期版本的大模型到以DeepSeek-R1和OpenAI-o1/o3為代表的推理模型,AI發展超乎想象。

在推理模型誕生后,人們更多的是想知道AI是否真正具備像人一樣的推理能力?

Sam Patterson和o3的這5次比賽很能說明問題,至少這種跨模態的推理能力還沒有在除了推理模型以外的技術上被發現。

即使篡改了EXIF數據也不會誤導模型,AI依然會依靠跨模態的識別和判斷能力來完成推理。

正如Sam Patterson所說,無論你將此視為反烏托邦還是技術奇跡——或者兩者兼而有之——你都不能聲稱它只是個小把戲。

參考資料:

https://sampatt.com/blog/2025-04-28-can-o3-beat-a-geoguessr-master

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李小璐霍思燕兩家同游,霍思燕植發沒了發際線,賈乃亮躲得遠遠的

李小璐霍思燕兩家同游,霍思燕植發沒了發際線,賈乃亮躲得遠遠的

草莓解說體育
2025-05-04 01:16:15
吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠了

吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠了

沈言論
2025-05-03 07:05:03
黃東萍生理期被罰紅牌!世界羽聯有先例屢教不改,馮彥哲坐地休息

黃東萍生理期被罰紅牌!世界羽聯有先例屢教不改,馮彥哲坐地休息

排球黃金眼
2025-05-04 16:57:35
周正毅五一坐游艇出海,毛玉萍曬與周正毅曾經合影,二人已不互動

周正毅五一坐游艇出海,毛玉萍曬與周正毅曾經合影,二人已不互動

二月侃事
2025-05-04 22:40:14
五一最堵十大景點排行!網友哭嚎:第3名擠到想報警,第8名勸退

五一最堵十大景點排行!網友哭嚎:第3名擠到想報警,第8名勸退

火星神機
2025-05-03 22:37:22
汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

火之文
2025-02-04 13:22:59
不光有凱恩,戴爾同樣在拜仁收獲職業生涯首個冠軍

不光有凱恩,戴爾同樣在拜仁收獲職業生涯首個冠軍

懂球帝
2025-05-05 02:01:23
賽前列隊歡迎,賽中痛下殺手!切爾西3-1利物浦,終結不勝魔咒!

賽前列隊歡迎,賽中痛下殺手!切爾西3-1利物浦,終結不勝魔咒!

釘釘陌上花開
2025-05-05 01:25:17
女優胎尼出道作擠進第4名,網友感嘆:前3名太強

女優胎尼出道作擠進第4名,網友感嘆:前3名太強

葫蘆哥愛吐槽
2025-05-05 00:05:31
0+0+0+0+0!場均0.8分+DNP,快船離隊第一人,29歲恐遭NBA拋棄

0+0+0+0+0!場均0.8分+DNP,快船離隊第一人,29歲恐遭NBA拋棄

球童無忌
2025-05-04 23:56:12
醉駕奔馳女后續:寧坐牢也要硬剛碰瓷者,代駕和出租車合謀碰瓷她

醉駕奔馳女后續:寧坐牢也要硬剛碰瓷者,代駕和出租車合謀碰瓷她

漢史趣聞
2025-05-04 10:47:39
黃東萍談被罰:來了月經局間需要去廁所,被罰分點燃了自己的狀態

黃東萍談被罰:來了月經局間需要去廁所,被罰分點燃了自己的狀態

直播吧
2025-05-04 16:57:02
“非洲戶口”被高考生玩出花來,免試讀985,名單流出網友沉默了

“非洲戶口”被高考生玩出花來,免試讀985,名單流出網友沉默了

熙熙說教
2025-05-04 21:25:23
首冠到手!凱恩秒慶祝,與戴爾擁抱,德甲官方祝賀:不負追光之人

首冠到手!凱恩秒慶祝,與戴爾擁抱,德甲官方祝賀:不負追光之人

奧拜爾
2025-05-05 01:53:19
看了《蠻好的人生》大結局就明白:孫儷的班,娛樂圈沒有人接得了

看了《蠻好的人生》大結局就明白:孫儷的班,娛樂圈沒有人接得了

娛樂看阿敞
2025-05-04 14:53:28
有趣,火箭隊主帥稱用了波波維奇給的建議,第六場擊敗了勇士隊

有趣,火箭隊主帥稱用了波波維奇給的建議,第六場擊敗了勇士隊

好火子
2025-05-05 01:44:09
沃爾沃終于松口!XC90暴降23萬,2.0T+299匹,豪華7座SUV

沃爾沃終于松口!XC90暴降23萬,2.0T+299匹,豪華7座SUV

沙雕小琳琳
2025-05-04 17:29:25
臺球皇帝發表言論引熱議!亨得利:趙心童會擊敗威廉姆斯奪冠!

臺球皇帝發表言論引熱議!亨得利:趙心童會擊敗威廉姆斯奪冠!

世界體壇觀察家
2025-05-04 16:13:39
斯諾克世錦賽:趙心童7-1領先威廉姆斯!決賽第一階段已兩次破百

斯諾克世錦賽:趙心童7-1領先威廉姆斯!決賽第一階段已兩次破百

阿柒體訊
2025-05-04 23:19:05
吳艷妮被攙扶離場,本人發聲

吳艷妮被攙扶離場,本人發聲

魯中晨報
2025-05-04 10:48:03
2025-05-05 02:08:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12644文章數 66026關注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

頭條要聞

游船傾覆游客:幾分鐘內狂風暴雨 大樹甚至被連根拔起

頭條要聞

游船傾覆游客:幾分鐘內狂風暴雨 大樹甚至被連根拔起

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

藝術
游戲
本地
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

圣騎士要來了?制作人稱《暗黑4》仍有開發潛力

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

媒體:美俄兩場閱兵 都有新看頭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 芒康县| 禹州市| 黄浦区| 新沂市| 南靖县| 新晃| 甘洛县| 卢湾区| 安化县| 玛沁县| 五常市| 安平县| 万宁市| 蕲春县| 牟定县| 北流市| 巩义市| 淮北市| 汶川县| 衡阳市| 赣州市| 东乌珠穆沁旗| 保亭| 天等县| 雅江县| 获嘉县| 萍乡市| 清苑县| 天峻县| 淮阳县| 冀州市| 衡水市| 璧山县| 青田县| 普洱| 永福县| 克什克腾旗| 岑巩县| 响水县| 平舆县| 子长县|