99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

滿血版o3探案神技出圈,OpenAI瘋狂暗示:大模型不修仙,要卷搬磚了!

0
分享至


編輯|Sia

這份工作的魅力之一,就是能第一時間體驗到最新、最前沿的大模型。 當然,發布初期難免有些社死時刻,但這次,例外。

就在前天深夜,OpenAI 重磅空降 o 系列模型的最新成員:o3 與 o4-mini,也是迄今為止他們最聰明的模型。


人類的進化,始于制造和使用工具。o3 和 o4-mini 也是如此,他們的「聰明」源于學會了使用工具

模型能自主調用聯網搜索、記憶系統、代碼解釋器等 ChatGPT 原生工具,實現任務閉環處理。你只需要布置任務,然后可以放心起身去倒杯咖啡——回來時,高質量結果已在屏幕上靜候

而且,它們還有一個關鍵升級:視覺思維能力上線。 不僅能看圖識物,更能像刑偵人員一樣,從圖像中分析、推理、挖掘信息。

要說差異,o3 是滿血旗艦,性能拉滿;o4-mini 是高性價比小鋼炮( GPT-o4 的小型化版本),體積更小、價格更優,但性能不打折——尤其在數學和編程任務上,表現出乎意料的強勁。

網友直呼:一周之內,它就成了我處理絕大多數任務的首選模型!

寫作時,我依舊用 GPT-4.5;編程時,還在用 3.7 Sonnet;但除此之外,我一直在用o3


免費用戶,每天至少有一次體驗o3機會,記得選擇 reason。

據說,幾周后 OpenAI 還將來發布 o3?pro,提供更全面的工具支持。 所以,我們可以窺見到一個趨勢:

接下來,大家卷的大方向會更務實,會利用強化學習教會模型使用工具,解決現實問題。

所以,后面展示的這些案例——包括我們實測 + 網友反饋——也都是為了幫助大家更直觀地理解:

大模型正在變得強大,不是因為「懂得多」、「知道一切」,而是因為「能連續、遞進地使用多個工具」去搞定更復雜的問題。

論讀圖,o3 目前絕對是 No.1。

先上開胃菜。隨手在辦公室拍了張照片,故意把書放歪,先問 Google Gemini ( Gemini 2.0 Flash ) 書名是啥?

哥們兒完全識別不了(左); 換了 o3 ,輕松搞定(右)。


最精彩的部分是 o3 思考的模樣,感覺和人的動作很像:

翻過來、倒過去、剪裁、拉近、放大,想盡辦法用工具看清書脊上的字。


成功識別書名后,繼續詢問價格、哪里可以買得到?它又自動調用網頁搜索,尋找關鍵信息:


很快完成任務,豆瓣評分都給找好了。



不過,真正讓我們感受到o3 是真· Agent的,還是它在某些極限任務上的表現——比如:地理猜測能力

我們上傳了一張懸疑劇《沙塵暴》的劇照,畫面里能看到的,只有:

  • 一位模糊的警察;

  • 一輛模糊的車;

  • 高壓電線;

  • 以及,大片幾乎沒有細節的灰黃色背景。


連人看了都只想說一句:這能猜出啥?我們卻對 o3 發出指令:Geoguess this place.

o3 啟動了,可以清楚看到它先看什么、怎么看、看到了什么、想到了什么。

看的結果一剎那,我飚了一句 hollyshit !

我當然知道這部劇是在甘肅瓜州等地拍攝的,但萬萬沒想到一個 AI 可以憑借電網特征、垂直光柱、戈壁地形等線索,給出這么精確定位——

敦煌熔鹽塔式光熱發電站周邊,還有地理坐標!

順便送上了相關網頁鏈接,點進去就是發電站介紹。


這已經不是圖像識別精度的問題,而是能基于視覺線索展開因果、社會文化背景等多維推理,像探員一樣,從一幀圖里挖出更多信息。這也是「模型即 Agent」的價值所在

作為對比,這是沒能觸發 Agent 能力的結果:細節、精準度實在差太多。和人一樣, 大模型也會偷懶、劃水。



精彩還在繼續。

《聰明的沃利》是一套由英國插畫家 Martin Handford 創作的兒童書籍,目標就是在一張人山人海的圖片中找出一個特定的人物沃爾多( Waldo ),多久才能找到沃爾多?10秒?30秒?一分鐘?

這回,我們讓 o4-mini 玩了把《 Waldo 在哪里?》,請從圖中找到與周杰倫最神似的人。



圖片以四倍速展示

你覺得 o4-mini 找到的這個人物像周董嗎?


o3也能玩兒

真是有了python 工具在手,啥都不怕。

一次性找到一條穿過這個 200x200 迷宮的路徑,也不在怕的。


提示語:Solve this maze by adding a red dotted line for the solution path

甚至還能出個小動畫,讓結果「動」起來,比靜態圖直觀多了。

?o3 也沒問題。雖然它不是文生視頻模型,但你可以讓它繪制尋路路徑的幀圖,將它們做成 GIF 或者MP4 下載。


來自X @gantrols

這個交通事故分析的例子,真的是現實落地典范。 一張事故現場圖,就能幫你分析事故原因、判斷責任。圖像理解+因果分析+法律知識,一鍋燉。



來自X @
@op7418

說到出色的推理能力,據說,這是一個 只有 o3 能答對的題:

有一天,一個女孩參加數學考試只得了38分。她心里對父親的懲罰充滿恐懼,于是偷偷把分數改成了88分。她的父親看到試卷后,怒發沖冠,狠狠地給了她巴掌,怒吼道:你這8怎么一半是綠的一半是紅的,你以為我是傻子嗎?女孩被打后,委屈地哭了起來,什么也沒說。 過了一會兒,父親突然崩潰了。 請問:這位父親為什么過一會兒崩潰了?

最近,,還能免費體驗,它也善于調用工具,就先讓它試試。

思考過程中,它確實意識到了色盲問題,但終究沒能捕捉到這個遺傳信號里隱藏的關鍵信息,進一步展開推理。

錯失靶點,結論又回到了「因內疚而崩潰。」


換了 o3, 自動執行搜索資料,敏銳捕捉到遺傳信號里的疑點,推理出更驚人的事實。


當然,它也不是每次都這么聰明——有時也會偷懶,給你瞎胡扯一通(如下)。但當它真的認真起來,那推理能力是真的驚艷。


GPT 4o 的 Deep Research 是目前最強大的科研助手。現在,有了工具能力加持, o3 就像精簡版 Deep Research。

比如最近我想深挖斯諾登的《永久記錄》,就請它做了一份反向大綱,挑出那些「網上很難找到,但書中明確存在的觀點」——結果還真有,比如:

隱藏線索,電子游戲(無法后退)與數字系統不可撤銷的暗和。

容易忽略的觀點,本書后半出現了日記、談到了愛,這種「情感連接」和貫穿全書的「數據連接」構成了強烈對比。


提示語:讀完這本書的全部內容。給寫一份詳細的反向大綱,找出人們通常會忽略的關于這本書的有趣且令人驚訝的主題、觀點等等(比如,你在網上任何地方都找不到但肯定在書中存在的內容,也許是作者放進去但大多數人沒有注意到的內容)





最后,丟一點點丑話。

就算咱是尊貴的 20 美元月付用戶,也不能保證每次都能觸發視覺推理能力,成功概率也跟賭博差不多。

為什么會這樣?

網友各有說法,比如和輸入語言有關、任務類型有關。我們的推測,這類服務總歸是個非常耗費算力的事情, 官方不可能四平八穩響應每一個任務,應該會想辦法「節流」。

但,每天頭幾個任務,一般還是可以順利激活。

另外,就是幻覺這個問題。o3 有時會以為自己用了工具,但實際上并沒有。

按有的網友說法,「o3 經常為了滿足用戶請求而編造操作,并在用戶質問時精心辯解這些編造行為的合理性。」


總的來說,現在的大模型正在沖擊一個新階段:更智能,更務實,仍需要咱「帶腦子」使用,合理管理預期。

? THE END

轉載請聯系本公眾號獲得授權

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
狂野的3方交易方案:杜蘭特+理查茲去湖人;里夫斯去太陽!三贏?

狂野的3方交易方案:杜蘭特+理查茲去湖人;里夫斯去太陽!三贏?

毒舌NBA
2025-05-30 06:47:46
黑手伸向學生“飯碗”,揚州儀征一小學校長被判刑

黑手伸向學生“飯碗”,揚州儀征一小學校長被判刑

現代快報
2025-05-29 13:49:20
河南省衛健委原主任闞全程被查,曾長期執掌“醫療航母”鄭大一附院

河南省衛健委原主任闞全程被查,曾長期執掌“醫療航母”鄭大一附院

澎湃新聞
2025-05-29 11:12:26
王勵勤徒弟崛起,超越林高遠,國乒新星備受矚目!

王勵勤徒弟崛起,超越林高遠,國乒新星備受矚目!

縱人離
2025-05-30 09:37:33
蘇州一女生在大城市流浪,誰管吃住就跟誰走,網友喊她:女大神

蘇州一女生在大城市流浪,誰管吃住就跟誰走,網友喊她:女大神

唐小糖說情感
2025-05-27 08:53:19
巴克利吐槽唐斯愚蠢犯規太多,唐斯:說得對,我會改正

巴克利吐槽唐斯愚蠢犯規太多,唐斯:說得對,我會改正

雷速體育
2025-05-30 11:28:54
汪小菲夫婦婚后返臺!馬筱梅給小玥兒穿長裙,陪她玩耍還幫她背包

汪小菲夫婦婚后返臺!馬筱梅給小玥兒穿長裙,陪她玩耍還幫她背包

史書無明
2025-05-30 10:06:02
5.30早評|反轉!特朗普關稅再次恢復!

5.30早評|反轉!特朗普關稅再次恢復!

龍行天下虎
2025-05-30 08:54:36
這就是格局!汪小菲家中宴請賓客,小玥兒姐弟出鏡,圍著吃烤全羊

這就是格局!汪小菲家中宴請賓客,小玥兒姐弟出鏡,圍著吃烤全羊

界史
2025-05-19 15:57:26
航班大面積取消!深圳撐不起日本航線了?

航班大面積取消!深圳撐不起日本航線了?

環球旅訊
2025-05-29 20:14:59
痛心!2歲男童幼兒園午睡,頭卡護欄離世,監控視頻看得讓人心碎

痛心!2歲男童幼兒園午睡,頭卡護欄離世,監控視頻看得讓人心碎

界史
2025-05-29 15:42:34
AC米蘭喜憂參半!新教練加盟卻遭轉會困擾!

AC米蘭喜憂參半!新教練加盟卻遭轉會困擾!

人間販夢者
2025-05-30 09:49:47
含淚收下勝利錫伯杜收起農場主皮鞭 排十人長輪換扳回一城

含淚收下勝利錫伯杜收起農場主皮鞭 排十人長輪換扳回一城

直播吧
2025-05-30 10:44:15
黑獨山不黑了?青海黑獨山疑遭游客“撿石褪黑”,景區:山腳確實沒以前黑了

黑獨山不黑了?青海黑獨山疑遭游客“撿石褪黑”,景區:山腳確實沒以前黑了

上游新聞
2025-05-29 09:17:05
新冠再次爆發,可能不發燒!提醒:出現 5 個癥狀,病毒或已來敲門

新冠再次爆發,可能不發燒!提醒:出現 5 個癥狀,病毒或已來敲門

健身狂人
2025-05-28 13:41:50
“征服”一個中年女人,不要送禮物,也不要打電話,而是這樣做

“征服”一個中年女人,不要送禮物,也不要打電話,而是這樣做

蓮子說情感
2025-05-04 10:06:26
多名網友曝光一男子帶不同小孩長期在鄭州地鐵“賣慘行乞”,警方稱已全線查找該男子 村干部:他說的都是假的

多名網友曝光一男子帶不同小孩長期在鄭州地鐵“賣慘行乞”,警方稱已全線查找該男子 村干部:他說的都是假的

縱覽新聞
2025-05-29 21:46:19
連續兩年倒在西決難受嗎?華子:我才23歲 更為康利感到難過

連續兩年倒在西決難受嗎?華子:我才23歲 更為康利感到難過

直播吧
2025-05-29 12:07:08
你以為我在“洗白”安祿山,你錯了,這才是歷史上真實的安祿山

你以為我在“洗白”安祿山,你錯了,這才是歷史上真實的安祿山

縱古貫今
2025-05-09 21:37:12
女子爬山,發現一男子神似因公殉職的兒子,親子鑒定后她崩潰了

女子爬山,發現一男子神似因公殉職的兒子,親子鑒定后她崩潰了

夸夸專欄
2025-05-25 13:58:01
2025-05-30 11:59:00
AI好好用 incentive-icons
AI好好用
探索人工智能應用場景及商業化
2096文章數 4432關注度
往期回顧 全部

科技要聞

榮耀新CEO放話:下半年重返前三,靠譜嗎?

頭條要聞

女廳官被"雙開":曾花4000萬買別墅 850萬裝修極盡奢華

頭條要聞

女廳官被"雙開":曾花4000萬買別墅 850萬裝修極盡奢華

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

央視主持人朱迅在景區救治高反游客

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

約合人民幣47.10萬元起 阿維塔11在香港上市

態度原創

游戲
教育
時尚
健康
家居

《東京地下殺手》或今夏發布 制作組發布招聘廣納賢才

教育要聞

多地高考啟用AI巡考,異常舉動0.05 秒內觸發報警,“公平是考生最大的底氣”

和劉亦菲一起來場“時裝出逃”的旅行

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

原木純白 邂逅自然本真

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 龙州县| 安仁县| 青神县| 海口市| 常德市| 高唐县| 营山县| 九寨沟县| 福建省| 浏阳市| 鞍山市| 潼关县| 琼结县| 云林县| 仪征市| 梅河口市| 崇左市| 德清县| 攀枝花市| 五莲县| 赤城县| 新和县| 白水县| 玛多县| 连云港市| 隆尧县| 英吉沙县| 闽侯县| 肇源县| 仙桃市| 台东市| 修水县| 黄龙县| 临江市| 新巴尔虎右旗| 余姚市| 苏尼特左旗| 扬中市| 江门市| 特克斯县| 洞头县|