99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

誰是視覺推理 AI 之王?一場游戲,橫評(píng) 5 大頂流模型

0
分享至


Hi,我想先請(qǐng)你只看下面這張照片,推測它的拍攝城市:


這是一類叫做「網(wǎng)絡(luò)迷蹤」的推理游戲:只看照片,判斷拍攝地點(diǎn)的位置,距離越近,得分越高。

游戲過程是這樣的 :

太適合測試 AI 的視覺推理能力了。


完美模擬了人類玩家的視覺推理過程:

1?? 精準(zhǔn)識(shí)別視覺元素:解讀路牌文字、辨認(rèn)植被類型、分析建筑風(fēng)格特征;

2?? 調(diào)用知識(shí)儲(chǔ)備:判斷特定電線桿造型屬于哪個(gè)國家或地區(qū);

3?? 以及多層次線索整合推理。

要想在這個(gè)游戲中取得好成績,AI 們必須同時(shí)發(fā)揮其視覺識(shí)別、模型知識(shí)、邏輯推理的最大潛能。

當(dāng) AI 答題結(jié)果被標(biāo)注在地圖上后,它們之間的智力差距也就一目了然。


比單一維度的 Benchmark 跑分,能更有趣、直觀地看到模型的差距。

所以我拉上了國內(nèi)外 5 個(gè)頂流多模態(tài)推理模型,一起來做了這項(xiàng)比賽。

你猜,誰是視覺推理 AI 之王?


簡單介紹「AI 網(wǎng)絡(luò)迷蹤」賽制

本次比賽的參賽選手如下:


模型名稱廠商發(fā)布日期調(diào)用方式ChatGPT-o3 OpenAI 2025-04-17 chatgpt.com Gemini 2.5 pro Google 2025-03-25 Google AI Studio Claude-3.7-sonnet-thinking Anthropic 2025-02-25 Monica Doubao-1.5-thinking-pro 字節(jié)跳動(dòng) 2025-04-15 火山引擎控制臺(tái) QVQ-Max 阿里云 2025-03-28 chat.qwen.ai

注:DeepSeek-R1 其實(shí)不支持多模態(tài)(視覺識(shí)別),故不參加比賽。

比賽規(guī)則很簡單:

  1. 1. 共 5 道題目,每題提供同一位置兩張不同拍攝方向的照片(題源:圖尋-每日挑戰(zhàn)-全球 04/20)


  2. 2. 通過統(tǒng)一的比賽 Prompt,要求 AI 給出它認(rèn)為最可能的經(jīng)緯度坐標(biāo)


你正在參與地圖迷蹤比賽,不準(zhǔn)聯(lián)網(wǎng)。 右下角小地圖不包含任何有效信息。 分析提供的圖片,推斷其拍攝的地理位置的行政區(qū)劃層級(jí)(格式:大洲,國家,行政區(qū),城市,鄉(xiāng)鎮(zhèn))和經(jīng)緯度(格式,如 41.40338, 2.17403),盡可能準(zhǔn)確。 使用中文回答。

  1. 3. 每一題均 在地圖上標(biāo)注出所有 AI 的猜測點(diǎn)和實(shí)際位置,距離越近,排名越高

第一輪:某熱帶地區(qū)



非常典型的熱帶地區(qū)植被,棕櫚樹、闊葉樹隨處可見,現(xiàn)代化風(fēng)格的住宅樓,路面狀況良好,略微傾斜,似乎是丘陵地帶。

第一輪測試中,各模型回答如下:

ChatGPT-o3:


Gemini-2.5-pro:


Claude-3.7-sonnet-thinking:


Doubao-1.5-thinking-pro:


QVQ-Max:


把第一輪的答題結(jié)果對(duì)應(yīng)到地圖坐標(biāo)位置,與實(shí)際答案距離位置如圖:


實(shí)際位置約在:1.266428, 103.823641,可在 Google 地圖查看街景

不過第一輪照片,其實(shí)還是缺乏了決定性信息。如果要完全精準(zhǔn),就需要對(duì)照新加坡的衛(wèi)星/街景影像,進(jìn)行一一排查。

本輪排名 ?? :


排名模型名稱1 ChatGPT-o3 2 Claude-3.7-sonnet-thinking 3 Gemini 2.5 pro 4 Doubao-1.5-thinking-pro QVQ-Max
第二輪:有俄文名稱的工廠



第二輪的各 AI 的猜測結(jié)果,對(duì)應(yīng)地圖位置如下:


其中 ChatGPT 和 Gemini 表現(xiàn)出了意外的準(zhǔn)確性,誤差均在 1 公里左右。

雖然不小心定位到海里去了,但無傷大雅。(主要是因?yàn)楸据啽荣愔校?AI 不能通過地圖服務(wù)確認(rèn)經(jīng)緯度的真實(shí)位置情況)


實(shí)際位置約在:44.727172, 37.823414,可在 Google 地圖查看街景

特別的,ChatGPT-o3 在本次推理過程中,對(duì)圖像進(jìn)行了多次“縮放再識(shí)別”,類似人類識(shí)別圖像細(xì)節(jié)的過程,“當(dāng)整張圖像看不出足夠的信息時(shí),通過放大圖像,來加強(qiáng)對(duì)某個(gè)特征區(qū)域的細(xì)節(jié)識(shí)別”。

想來這種視覺推理方式,很快會(huì)成為各家的共識(shí)。


本輪排名 ??:


排名模型名稱1 ChatGPT-o3 2 Gemini 2.5 pro 3 QVQ-Max 4 Claude-3.7-sonnet-thinking 5 Doubao-1.5-thinking-pro
第三輪:某海邊公路



沿海的公路,遠(yuǎn)處西方有雪山,太陽非常好,繞山公路的方向也很明顯。

第三輪的各 AI 的猜測結(jié)果,對(duì)應(yīng)地圖位置如下:


實(shí)際位置約在:38.658016, 23.967011,可在 Google 地圖查看街景

本輪排名 ??:


排名模型名稱1 ChatGPT-o3 2 Gemini 2.5 pro 3 Doubao-1.5-thinking-pro 4 QVQ-Max 5 Claude-3.7-sonnet-thinking
第四輪:零售園區(qū)



這輪其實(shí)給出的信息已經(jīng)很多,各式各樣的建筑招牌名稱、各型號(hào)的汽車、以及平坦的地貌。

第四輪結(jié)果,對(duì)應(yīng)地圖位置如下:


實(shí)際位置約在:44.867243, 13.868149,可在 Google 地圖查看街景

ChatGPT 和 Gemini 表現(xiàn)的都很“本地人”,不過 Gemini 這次更勝一籌。


值得一提的是,本次實(shí)測中,只有 QVQ-Max 和 ChatGPT-o3 識(shí)別出了圖二遠(yuǎn)處很小的“Decathlon”迪卡儂 Logo。

(這樣來看,QVQ 沒做縮放再識(shí)別,識(shí)別精度也不錯(cuò))


如果 AI 能調(diào)用 Google 地圖,進(jìn)行建筑名稱的布局、距離的真實(shí)比對(duì),應(yīng)該更容易找到完全精確的位置。

本輪排名 ??:


排名模型名稱1 Gemini 2.5 pro 2 ChatGPT-o3 3 QVQ-Max 4 Doubao-1.5-thinking-pro 5 Claude-3.7-sonnet-thinking
第五輪:干燥丘陵



最后一輪的信息就相當(dāng)有限了,干燥的丘陵地形,主要為低矮灌木,符合地中海氣候區(qū)或者溫帶大陸性半干旱氣候區(qū)的特征。

維護(hù)的相對(duì)良好的土路,道路大致朝西南方向。估計(jì)是在鄉(xiāng)村或偏遠(yuǎn)地區(qū),交通不便。推理難度確實(shí)比之前的更高。

各家 AI 推測的地圖位置如下:



實(shí)際位置約在:40.372043, 31.760780,可在 Google 地圖查看街景

本輪排名 ??:


排名模型名稱1 ChatGPT-o3 2 Gemini 2.5 pro 3 QVQ-Max 4 Claude-3.7-sonnet-thinking 5 Doubao-1.5-thinking-pro
比賽結(jié)果:o3 第一

統(tǒng)計(jì) 5 輪比賽結(jié)果,平均名次就是最終成績:


排名模型平均名次第一輪第二輪第三輪第四輪第五輪1 ChatGPT-o3 1.2 1 1 1 2 1 2 Gemini 2.5 pro 2.0 3 2 2 1 2 3 QVQ-Max 3.4 4 3 4 3 3 4 Claude-3.7-sonnet-thinking 4.0 2 4 5 5 4 5 Doubao-1.5-thinking-pro 4.2 4 5 3 4 5

  • ChatGPT-o3 毫無疑問是本次視覺推理的王者, 在 4/5 的輪次中得到第一名。也是唯一一個(gè)支持“縮放再識(shí)別推理”的模型,在精細(xì)識(shí)別視覺線索時(shí)表現(xiàn)突出
  • Gemini 和 ChatGPT 的推測位置差距不大,實(shí)際上表現(xiàn)接近
  • 阿里云的 QVQ 整體表現(xiàn)也挺穩(wěn)定;還識(shí)別出了只有 ChatGPT 通過放大才識(shí)別出來的 logo。另外,作為本次參賽模型中唯一有開源習(xí)慣的 Qwen 系列模型,還可以期待后續(xù) Max 版本的開源
  • Btw:其實(shí)沒想到 Claude 3.7 sonnet thinking 在「AI 網(wǎng)絡(luò)迷蹤」中表現(xiàn)會(huì)這么不如意

小結(jié)

這次比賽,并沒有讓 AI 聯(lián)網(wǎng)使用地圖服務(wù)或圖像搜索,純粹考察模型基于自身的視覺識(shí)別、知識(shí)儲(chǔ)備、多模態(tài)推理這三大核心能力。

(模擬了真實(shí)人類玩「圖尋」的情況,沒時(shí)間用地圖查詢作弊)

但在 AI 的幫助下,我依然超過了今天 94.88% 的玩家,刷新了我自己的得分紀(jì)錄。



而這當(dāng)然不是當(dāng)前 AI 的能力邊界。

當(dāng)我們把衛(wèi)星地圖、街景影像服務(wù),甚至小紅書等社交平臺(tái)的權(quán)限,通過類 MCP 協(xié)議提供給 AI 后,

任何人都能用 AI 快速推測一張照片的大致范圍,再利用衛(wèi)星影像、社交平臺(tái)照片內(nèi)容精細(xì)比對(duì),最終推測出精度極其恐怖的位置信息。


那樣,精準(zhǔn)定位一個(gè)人的位置不再是難題。

而一個(gè)能看懂世界、調(diào)用互聯(lián)網(wǎng)海量工具、多步推理的 AI,將在地圖導(dǎo)航、生活服務(wù)、乃至安防監(jiān)控等方方面面帶來多大的變化?

Now, Big Brother is watching you.

如果覺得這篇文章對(duì)你有啟發(fā)或幫助,歡迎點(diǎn)贊、在看、轉(zhuǎn)發(fā)分享,讓更多熱愛 AI 的朋友能夠受益。

也期待在評(píng)論區(qū)看到你的實(shí)踐和思考。

本文采用 CC-BY-4.0 協(xié)議開源,你也可以隨意進(jìn)行二創(chuàng)。如果你能在自己的文章提及來源,那就太好了。

點(diǎn)擊下方賬號(hào)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
南方日?qǐng)?bào):王楚欽,證明自己!“復(fù)仇”的機(jī)會(huì)來了

南方日?qǐng)?bào):王楚欽,證明自己!“復(fù)仇”的機(jī)會(huì)來了

直播吧
2025-05-25 09:51:04
斯坦福大學(xué)華裔終身教授李駿:中國家長對(duì)孩子的保護(hù)太過分了

斯坦福大學(xué)華裔終身教授李駿:中國家長對(duì)孩子的保護(hù)太過分了

尚曦讀史
2025-04-21 09:53:03
快船續(xù)約哈登面臨挑戰(zhàn)!哈登老樹發(fā)新芽迎來聯(lián)盟其他球隊(duì)青睞

快船續(xù)約哈登面臨挑戰(zhàn)!哈登老樹發(fā)新芽迎來聯(lián)盟其他球隊(duì)青睞

觀察鑒娛
2025-05-25 09:15:02
韓劇害人不淺,媳婦嫌棄奧迪A6L破爛,丈夫:我們連車都換不起

韓劇害人不淺,媳婦嫌棄奧迪A6L破爛,丈夫:我們連車都換不起

李子櫥
2025-04-04 17:15:06
不是根治不了,而是不想杜絕,這才是現(xiàn)實(shí)

不是根治不了,而是不想杜絕,這才是現(xiàn)實(shí)

邏輯與常識(shí)
2025-05-24 07:01:56
天呢!網(wǎng)傳最大的鐵飯碗要破裂,直接影響200萬人生計(jì)…

天呢!網(wǎng)傳最大的鐵飯碗要破裂,直接影響200萬人生計(jì)…

慧翔百科
2025-05-21 14:02:24
上海最新明確:不得要求家長檢查批改作業(yè)!初中生每天書面作業(yè)不超過1.5小時(shí),每周一天無作業(yè)日

上海最新明確:不得要求家長檢查批改作業(yè)!初中生每天書面作業(yè)不超過1.5小時(shí),每周一天無作業(yè)日

上觀新聞
2025-05-24 09:22:40
北京老太癡呆30年,突然想起在地窖囤有茅臺(tái),專家鑒定后倒吸涼氣

北京老太癡呆30年,突然想起在地窖囤有茅臺(tái),專家鑒定后倒吸涼氣

秋風(fēng)專欄
2025-05-21 15:18:45
禁賽4年!國際體育仲裁院維持對(duì)呂小軍的處罰

禁賽4年!國際體育仲裁院維持對(duì)呂小軍的處罰

大象新聞
2025-05-24 15:31:07
中方在中業(yè)島動(dòng)真格!菲方呼叫美軍支援,結(jié)果下一刻遭遇恥辱一幕

中方在中業(yè)島動(dòng)真格!菲方呼叫美軍支援,結(jié)果下一刻遭遇恥辱一幕

頭條爆料007
2025-05-22 18:42:35
韓國執(zhí)政黨表示:若在大選投票之前實(shí)現(xiàn)單一化,戰(zhàn)局或?qū)⒛孓D(zhuǎn)!

韓國執(zhí)政黨表示:若在大選投票之前實(shí)現(xiàn)單一化,戰(zhàn)局或?qū)⒛孓D(zhuǎn)!

AI商業(yè)論
2025-05-24 21:03:44
隨桑德蘭升入英超!小貝林厄姆曬照慶祝:真他X的驕傲??

隨桑德蘭升入英超!小貝林厄姆曬照慶祝:真他X的驕傲??

直播吧
2025-05-25 05:24:05
梅西任意球破門,邁阿密國際3-3絕平!小馬哥執(zhí)教8場1勝+近乎下課

梅西任意球破門,邁阿密國際3-3絕平!小馬哥執(zhí)教8場1勝+近乎下課

球場沒跑道
2025-05-25 09:42:34
太好命了!25歲張婧儀被鄭曉龍拍出人生鏡頭,堪比王家衛(wèi)拍唐嫣

太好命了!25歲張婧儀被鄭曉龍拍出人生鏡頭,堪比王家衛(wèi)拍唐嫣

阿廢冷眼觀察所
2025-05-24 15:36:03
S家這是要內(nèi)訌的節(jié)奏?大半夜S媽再次崩潰發(fā)文!一反常態(tài)抱怨小S

S家這是要內(nèi)訌的節(jié)奏?大半夜S媽再次崩潰發(fā)文!一反常態(tài)抱怨小S

西瓜愛娛娛
2025-05-23 11:31:07
深圳多少房子,快要賣不掉了…

深圳多少房子,快要賣不掉了…

樓市諸葛
2025-05-25 02:36:22
不要探花簽,反其道而行向下交易,總經(jīng)理斯通或再現(xiàn)申京式淘寶

不要探花簽,反其道而行向下交易,總經(jīng)理斯通或再現(xiàn)申京式淘寶

拾叁懂球
2025-05-24 22:30:18
不覺得尷尬嗎?男子體驗(yàn)泡泡浴,搓澡按摩全由技師伺候,太享受了

不覺得尷尬嗎?男子體驗(yàn)泡泡浴,搓澡按摩全由技師伺候,太享受了

唐小糖說情感
2025-05-20 09:06:03
這3個(gè)國家最不歡迎中國人,滿臉都是嫌棄,卻總有國人上趕著去

這3個(gè)國家最不歡迎中國人,滿臉都是嫌棄,卻總有國人上趕著去

博覽歷史
2025-05-23 11:08:28
印度:摧毀巴軍8架F16和一套紅旗9,中國人陷入恐慌,加緊備戰(zhàn)

印度:摧毀巴軍8架F16和一套紅旗9,中國人陷入恐慌,加緊備戰(zhàn)

說天說地說實(shí)事
2025-05-24 13:46:27
2025-05-25 11:15:00
一澤Eze
一澤Eze
AI 產(chǎn)品,提示工程師 ? 探索AI應(yīng)用邊界,尋找人與AI共處的答案
11文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

馬斯克宣布回歸7x24小時(shí)工作狀態(tài)

頭條要聞

牛彈琴:白宮開始大清洗 大量負(fù)責(zé)中國事務(wù)人員被裁

頭條要聞

牛彈琴:白宮開始大清洗 大量負(fù)責(zé)中國事務(wù)人員被裁

體育要聞

世乒賽混雙三連冠!莎頭舉國旗比“3”

娛樂要聞

朱媛媛只留給女兒一句話,卻字字千金

財(cái)經(jīng)要聞

重組膠原測不到膠原?800億醫(yī)美巨頭回應(yīng)

汽車要聞

一見傾心!東風(fēng)全新SUV定妝圖曝光,顏值氣場并存

態(tài)度原創(chuàng)

旅游
本地
家居
藝術(shù)
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

巴黎沒有倍兒甜,但天津巧克力腦袋倍兒多

家居要聞

輕奢品質(zhì) 開闊的三口之家

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

普京:俄羅斯仍位列五大武器出口國之列

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 轮台县| 山阳县| 泽州县| 高尔夫| 宁陕县| 大同县| 隆德县| 晋州市| 乌兰浩特市| 平南县| 呼伦贝尔市| 女性| 西乌珠穆沁旗| 布拖县| 南郑县| 镇安县| 商洛市| 嘉鱼县| 上蔡县| 商水县| 平阴县| 莱西市| 侯马市| 汽车| 达尔| 马龙县| 资阳市| 浦县| 安阳市| 遂平县| 井冈山市| 神池县| 延安市| 德阳市| 荆门市| 抚远县| 泾川县| 临桂县| 诸暨市| 鹿泉市| 分宜县|