新智元報道
編輯:定慧 Aeneas
【新智元導讀】就在剛剛,GPT-5悄悄身披馬甲出道了?一個代號為「Lobster(龍蝦)」的神秘模型在WebDev Arena橫空出世,輕松吊打Grok-4,網友紛紛猜測:這就是GPT-5本尊!更有提前試用者曝出:GPT-5編程能力驚人,甚至能改屎山代碼。
GPT-5來了?但是「龍蝦」版!
GPT-5「Lobster」疑似現身WebDev Arena,引發社區狂熱猜測:網友實測比Grok-4好的離譜。
WebDev Arena是一個大模型能力匿名評測的網站,使用相同的提示詞,在雙盲的情況下,給你認為最好的模型投票。
很多待發布的模型,都會有各種各樣「奇怪」的代號提前進行實測。
Lisan al Gaib在實測中捕捉了GPT-5!
并且用同樣的提示詞,GPT-5生成的頁面效果非常驚艷(左邊是GPT-5,右邊Grok-4)。
他使用的提示詞是:
Create a stunning, interactive animation of a neural network or brain-like graph structure—use artistic colors, smooth transitions, and beautiful visuals. The page should feel alive, immersive, and impressive, with no buttons—just scrolling or continuous animation. Make it breathtaking.
創建一個令人驚嘆的神經網絡或類腦圖結構的交互式動畫——使用藝術性的色彩、平滑的過渡和精美的視覺效果。整個頁面應充滿活力、沉浸感和震撼力,不使用任何按鈕,僅通過滾動或持續的動畫進行交互。讓其令人嘆為觀止。
疑似GPT-5,并且命名為「龍蝦」的LLM給出了驚艷的答案。
此外,GPT-5其他版本的代號也疑似曝光。
GPT-5:Lobster
GPT-5-mini:Nectarine
GPT-5-nano:Starfish
多位用戶表示該模型在代碼生成、交互表現上已超越Claude,令他們震驚。
與此同時,Reddit網友發現,OpenAI現在正在將所有o3請求秘密地轉接到GPT-5上處理。(LMArena中新的匿名 OpenAI模型「zenith」,所以OpenAI為了測試GPT-5到底起了多少「外號」?)
它現在能夠處理o3在「正確/接近正確的解答率」只有0%的極高難度數學問題,并且在風格上與o3有顯著不同。
甚至,有網友表示,已經有非科技行業的員工已經獲得了GPT-5預覽版的訪問權限。
但可能由于保密協議的關系,無法知曉到底是哪家公司能這么幸運被隨機選中。
看來GPT-5已經是箭在弦上了!
GPT-5搶先體驗:實錘了,很強
顯然,如今GPT-5如今已經近在咫尺。
比如OpenAI CEO奧特曼,就已經開始在各個場合暗戳戳地宣揚這個強大的神秘模型。
在最近的一次采訪中,他這樣描述了自己對GPT-5的使用初體驗。
與此同時,AI圈也按捺不住地躁動起來。已經有多位提前體驗GPT-5的用戶出來透露說,GPT-5的表現極其驚艷!
不過,目前我們尚未得知,GPT-5究竟會在何時發布,會提供給哪些客戶。
據悉,GPT-5旨在實現奧特曼的一項計劃:將傳統的GPT系列大模型與o系列推理模型,整合進一個統一的模型界面中。
現在,外媒已經為我們收集了一波體驗者的感想。
簡單來說就是——
在自然科學領域,推理更深入;
在瀏覽器里自動完成復雜任務;
寫作更流暢,邏輯更在線;
更重要的是:在編碼上有炸裂提升!
GPT-5跟Anthropic的混合式Claude模型類似。在未來,用戶或許能控制GPT-5對特定問題思考的深度,模型自身也會根據問題的難易度,自動開啟或關閉推理能力。
也就是說,如果我們去問「strawberry里有幾個r」這種問題,即使我們要求,它也不會傻到去耗費巨額算力來思考。
如果你問它「怎么優化一個10年沒動的數據庫結構」,它才開始認真調用深層邏輯能力。
但其中一位體驗者表示,GPT-5最顯著的進步,就體現在編程上!
程序員哭了:屎山代碼有救了?
根據他的說法,GPT-5不僅更善于解決學術和編程競賽問題上,甚至在處理現實世界工程師面對的實際編程任務時,表現都更加驚艷了。
比如那種包含大量屎山遺留代碼的龐雜代碼庫,它能都能進行修改,完全沒在怕的。
正是這種處理復雜場景的細致能力,讓OpenAI的模型過去始終落后于Anthropic。畢竟在開發者群體中,大家都公認,Claude才是真正的編程王者。
一位體驗者親測后表示,GPT-5在編程上,甚至直接勝過了Anthropic的Claude Sonnet 4!
因此,我們可以直接窺見OpenAI在自動化復雜編程上的野心了。
畢竟,目前市面上最能賺錢的AI產品之一就是編程助手,像Cursor就靠Claude賺得盆滿缽滿,據說年營收都達到上億美元了。
顯然,OpenAI很想把這塊大蛋糕搶回來。
不僅如此,在OpenAI領導層的眼里,是否能自動化真實世界的復雜編程任務,就是實現AGI的關鍵。
安撫英偉達和投資人
總之,如果GPT-5表現強勁,對于英偉達、數據中心建設公司和投資者而言,都能起到很好的安撫作用。
畢竟在去年,曾有一波大模型撞墻論曝出。
而GPT-5的好消息,就意味著即使預訓練的邊際收益遞減也沒關系,因為提升AI模型能力的真正關鍵,就在于后訓練階段的強化學習。
也就是說,OpenAI的路線沒有撞墻,只是換道超車了!
另外還有個細節,此次更加被證實。
它會根據問題的類型,把你的提問發送給一個擅長閑聊GPT大模型,或是一個擅長邏輯和推理的o系列模型。
最終我們所看到的GPT-5的表現,就是這倆模型組合拳的效果。
彩蛋:GPT-8都在路上了?
甚至這次,還有投資人爆料,OpenAI高管曾私下說——
我們在不換架構的前提下,有信心做到GPT-8。
這可實在太猛了。雖然聽起來像是「PPT先行」,但也傳遞出一個關鍵信息。
OpenAI并沒有打算卷新架構,而是靠更聰明的調度、更強的推理、更多的后訓練數據,一步一步把現有技術用到極致。
所以,照例每日一問:GPT-5啥時候來?
參考資料:
https://x.com/scaling01/status/1948878978699460808
https://x.com/scaling01/status/1948775211702046772
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.