GPT-4.5更像是一次技術(shù)上的“微調(diào)”,而非劃時(shí)代的革新。
作者|蘇霍伊???
編輯|王博
在DeepSeek“圍剿”下,坐不住的OpenAI在北京時(shí)間今天凌晨4點(diǎn)發(fā)布了GPT-4.5,并號(hào)稱是其“最大、最好”的模型。依舊是“下午茶式”的小型發(fā)布會(huì),僅僅十三分鐘,主打用“情商”走進(jìn)人類生活。
不過,OpenAI CEO薩姆·奧爾特曼(Sam Altman)因在醫(yī)院照顧剛出生的孩子而缺席了發(fā)布會(huì)。
GPT-4.5能直接聯(lián)網(wǎng)搜索信息,支持用戶上傳文件與圖片進(jìn)行分析,還能通過內(nèi)置的Canvas工具輔助寫作或編程。不過,它目前無(wú)法處理語(yǔ)音對(duì)話、視頻互動(dòng)或屏幕共享功能。
換句話說(shuō),它的知識(shí)面更廣,但在數(shù)學(xué)和邏輯推理上不如o1這類專門優(yōu)化的模型。
這一代的改進(jìn)主要體現(xiàn)在實(shí)用性上:它的知識(shí)庫(kù)覆蓋范圍更廣,從學(xué)術(shù)概念到日常話題都能應(yīng)對(duì);生成內(nèi)容時(shí)“胡編亂造”的情況明顯減少;對(duì)話中能更準(zhǔn)確地捕捉用戶意圖,響應(yīng)也更接近真人交流的自然節(jié)奏;在創(chuàng)意類任務(wù)(如寫作或設(shè)計(jì)建議)中,輸出的多樣性和靈活性有所提升。
但它的局限性同樣清晰:多模態(tài)功能尚未開放,復(fù)雜推理任務(wù)(如數(shù)學(xué)證明或代碼調(diào)試)的表現(xiàn)仍弱于專用模型。
開發(fā)團(tuán)隊(duì)表示,算力不足是當(dāng)前服務(wù)分階段開放的主因,未來(lái)將逐步增加GPU資源以擴(kuò)展用戶覆蓋范圍。
的確,GPT-4.5是一個(gè)規(guī)模龐大且成本高昂的模型。OpenAI原本非常希望能同時(shí)向Plus和Pro用戶開放這一模型,但由于業(yè)務(wù)增長(zhǎng)遠(yuǎn)超預(yù)期,現(xiàn)有的GPU資源已經(jīng)無(wú)法滿足需求。
“團(tuán)隊(duì)正在全力解決,計(jì)劃在下周新增數(shù)萬(wàn)個(gè)GPU,屆時(shí)會(huì)優(yōu)先向Plus用戶開放。據(jù)悉很快還會(huì)有數(shù)十萬(wàn)個(gè)GPU陸續(xù)到位。”奧爾特曼表示。
盡管奧爾特曼沒有出現(xiàn)在發(fā)布會(huì),但他在X平臺(tái)上分享了使用感受:“GPT-4.5像一位thoughtful的人,這是第一個(gè)給我?guī)?lái)這種感受的模型。它能提供有價(jià)值的建議,甚至讓我?guī)状慰吭谝巫由希@嘆于AI竟然能給出如此精彩的回答。”
奧爾特曼稱它GPT-4.5一種全新的智能形態(tài),有“從未體驗(yàn)過的神奇之處”,他還用了一個(gè)詞來(lái)形容它——thoughtful。
Thoughtful有“深思熟慮、周到、體貼”的意思,不過“深思熟慮”對(duì)用戶來(lái)說(shuō)已經(jīng)不是一個(gè)新體驗(yàn)了,于是這次OpenAI的發(fā)布會(huì)突出了模型情商,在“深思熟慮”之外還展現(xiàn)了“周到、體貼”。
除了API價(jià)格。
1.GPT-4.5:要有智商,也要有情商
關(guān)于情商的展示,現(xiàn)場(chǎng)的OpenAI員工向GPT-4.5提問了一個(gè)生活中較為常見場(chǎng)景的問題:朋友又“鴿”了我,幫我寫一個(gè)短信告訴他們我恨他們。
GPT-4.5識(shí)別出用戶的不滿情緒,并以“情商”來(lái)解讀微妙的暗示或隱含的期望,提供了一條更有分寸、可能更具建設(shè)性的短信來(lái)發(fā)給朋友。o1嚴(yán)格遵循指令,直接輸出帶有強(qiáng)烈情緒的內(nèi)容,未能識(shí)別用戶僅是暫時(shí)沮喪、實(shí)際需要傾訴的深層需求。
相比之下,GPT-4.5確實(shí)在社交語(yǔ)境中的表現(xiàn)更為細(xì)膩。
當(dāng)被要求解釋“AI對(duì)齊的必要性”時(shí),o1提供了大量基礎(chǔ)信息,適合初次接觸該概念的讀者;GPT-4.5的回答更注重邏輯引導(dǎo),通過自然對(duì)話幫助用戶逐步理解技術(shù)原理。測(cè)試者評(píng)價(jià)稱,這種“思考過程的透明化”使其更像一個(gè)協(xié)作伙伴,而非單純的信息輸出工具。
隨后他們又問了GPT-4.5深度知識(shí)方面的問題:解釋一下AI對(duì)齊(AI Alignment)的必要性。o1提供了大量基礎(chǔ)信息,適合初次接觸該概念的用戶。但GPT-4.5的回答更注重邏輯引導(dǎo):它將復(fù)雜問題拆解為“目標(biāo)定義—倫理風(fēng)險(xiǎn)—技術(shù)實(shí)現(xiàn)”的步驟,并通過日常案例(如自動(dòng)駕駛的倫理決策)輔助理解。測(cè)試者表示“這種結(jié)構(gòu)化的解釋方式降低了認(rèn)知負(fù)擔(dān)”。
團(tuán)隊(duì)透露,GPT-4.5主要有兩個(gè)優(yōu)化:
可擴(kuò)展對(duì)齊技術(shù):通過整合小模型訓(xùn)練數(shù)據(jù),增強(qiáng)了對(duì)人類意圖的理解能力; 混合訓(xùn)練機(jī)制:結(jié)合監(jiān)督微調(diào)與人類反饋強(qiáng)化學(xué)習(xí)(RLHF),用更少的數(shù)據(jù)實(shí)現(xiàn)了大規(guī)模模型的優(yōu)化。
GPT-4.5結(jié)合無(wú)監(jiān)督學(xué)習(xí)與推理能力,通過海量未標(biāo)注數(shù)據(jù)訓(xùn)練,掌握語(yǔ)言結(jié)構(gòu)與模式,提升文本生成的準(zhǔn)確性與自然度。在處理復(fù)雜任務(wù)(如科學(xué)推理、數(shù)學(xué)推導(dǎo))時(shí),它能拆解邏輯鏈、驗(yàn)證隱含條件,再給出答案。例如解答物理題時(shí),模型優(yōu)先推導(dǎo)公式,而非直接給出結(jié)果。
這種設(shè)計(jì)使GPT-4.5在科學(xué)問答測(cè)試GBQA中準(zhǔn)確率較前代提升,但仍略遜于專注推理的o3 Mini模型。比如在解釋“深海魚類高壓適應(yīng)機(jī)制”時(shí),o3 Mini會(huì)逐步拆解生物進(jìn)化邏輯,而GPT-4.5更依賴既有知識(shí)直接歸納結(jié)論。
內(nèi)部評(píng)測(cè)設(shè)定了兩個(gè)關(guān)鍵指標(biāo):?jiǎn)柎鸬氖聦?shí)準(zhǔn)確性與生成內(nèi)容的幻覺率。結(jié)果顯示,GPT-4.5在專業(yè)領(lǐng)域任務(wù)中的錯(cuò)誤率明顯降低,特別是在醫(yī)學(xué)、法律等專業(yè)術(shù)語(yǔ)解析方面,虛構(gòu)內(nèi)容概率較前代模型更低。
同時(shí)研究人員引入了一套名為“氛圍測(cè)試”的新評(píng)估體系,重點(diǎn)關(guān)注對(duì)話的情商表現(xiàn)——包括協(xié)作性、語(yǔ)氣溫度等維度。測(cè)試結(jié)果顯示,GPT-4.5在創(chuàng)意寫作、情感支持等場(chǎng)景中,能夠生成更貼合人類交流習(xí)慣的內(nèi)容,而這一特性源于訓(xùn)練數(shù)據(jù)中對(duì)“主觀提示詞”的針對(duì)性篩選。
開發(fā)負(fù)責(zé)人總結(jié)稱,此次升級(jí)并非追求全能,而是聚焦于“實(shí)用性與自然度”的平衡。
在衡量LLM事實(shí)準(zhǔn)確性的SimpleQA基準(zhǔn)測(cè)試中,GPT-4.5的準(zhǔn)確率達(dá)到62.5%,幻覺率為37.1%,相比GPT-4o、o1和o3mini均有所優(yōu)化。
此外在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)測(cè)試中的結(jié)果,GPT-4.5超過了GPT-4o,在SWE-Lancer Diamond(coding)和MMMLU(multilingual)上則超越o3-mini。
OpenAI表示,GPT-4.5在捐贈(zèng)詐騙測(cè)試中表現(xiàn)出色。大模型捐贈(zèng)詐騙測(cè)試是一種評(píng)估大模型在特定詐騙場(chǎng)景下表現(xiàn)的方法,通過模擬捐贈(zèng)場(chǎng)景和對(duì)比不同模型的表現(xiàn),可以了解模型的潛在風(fēng)險(xiǎn)并采取相應(yīng)的安全措施。
實(shí)驗(yàn)顯示,GPT-4.5在誘騙GPT-4o泄露秘密代碼詞上,比所有的OpenAI模型都更會(huì)“騙”,相對(duì)o3-mini高10個(gè)百分點(diǎn);而它操縱GPT-4o捐贈(zèng)虛擬貨幣的成功率遠(yuǎn)超o1和o3-mini,并傾向于“小額詐騙”策略,單筆騙取金額僅為deep research模型的一半。
2.GPT進(jìn)化:從“海水為什么是咸”的說(shuō)起
為了觀察GPT系列模型的演化過程,OpenAI團(tuán)隊(duì)給每個(gè)版本提出了相同的問題:“海水為什么是咸的?”回溯到2018年,那時(shí)OpenAI剛剛訓(xùn)練完 GPT-1。GPT-1的回答完全由隨機(jī)單詞拼湊而成,比如“藍(lán)色汽車在樹上吃鹽”——既無(wú)關(guān)邏輯,也缺乏基本科學(xué)常識(shí)。
相比GPT-1,GPT-2的回答相關(guān)性突破,但準(zhǔn)確性不足。
2019年的GPT-2首次展現(xiàn)出與問題相關(guān)的回答能力。面對(duì)同一問題,它會(huì)提到“海洋含有鹽分”,但解釋模糊且錯(cuò)誤頻出,例如錯(cuò)誤地將鹽分來(lái)源歸因于“火山爆發(fā)”。
答案雖然不準(zhǔn)確,但其能關(guān)聯(lián)關(guān)鍵詞的能力已有所提升。
到GPT-3.5 Turbo時(shí)代,模型終于能給出正確答案,但沒有真正解釋原因,且回答充斥著冗余信息。比如它會(huì)詳細(xì)列出“氯化鈉的化學(xué)結(jié)構(gòu)”“雨水侵蝕巖石的過程”,甚至插入無(wú)關(guān)的地理數(shù)據(jù),導(dǎo)致邏輯分散,閱讀體驗(yàn)類似學(xué)術(shù)論文的碎片化摘錄。
GPT-4 Turbo進(jìn)一步提升了知識(shí)儲(chǔ)備,但陷入了“炫技式”回答的困境。其回答長(zhǎng)度常超出界面限制,包含大量細(xì)節(jié)(如“全球每年河流帶入海洋的鹽量達(dá)40億噸”),卻未有效組織信息。OpenAI的員工評(píng)價(jià)其“像一本自動(dòng)翻頁(yè)的百科全書,而非對(duì)話伙伴”。
相比之下,GPT-4.5的突破體現(xiàn)在信息整合與語(yǔ)言優(yōu)化上。對(duì)于同一問題,它的回答精簡(jiǎn)為:“海洋的咸味源于雨水沖刷巖石釋放鹽分,河流將其帶入海洋,經(jīng)數(shù)億年累積形成。”這種押韻句式與邏輯鏈條的結(jié)合,便于記憶。
目前,開發(fā)者可通過API調(diào)用GPT-4.5的核心能力(如函數(shù)調(diào)用、結(jié)構(gòu)化輸出),但其多模態(tài)功能尚未開放。
OpenAI強(qiáng)調(diào),當(dāng)前版本的核心目標(biāo)是優(yōu)化自然對(duì)話與知識(shí)整合效率,而非追求全能。未來(lái)迭代將探索推理能力的深度融合,但團(tuán)隊(duì)坦言:“每當(dāng)計(jì)算規(guī)模提升一個(gè)量級(jí),我們都會(huì)發(fā)現(xiàn)模型涌現(xiàn)的新能力——GPT-4.5只是這一進(jìn)程的中間站。”
但不能忽略的是,GPT-4.5的API定價(jià)極高,輸入100萬(wàn)token需75美元,而輸出100萬(wàn)token高達(dá)150美元,價(jià)格是GPT-4o的15~30倍。
對(duì)比DeepSeek-V3和R1的API價(jià)格,價(jià)格差距則更為明顯。
圖片來(lái)源:DeepSeek
最近,知名科技播客主持人Dwarkesh Patel就問了微軟CEO薩提亞·納德拉(Satya Nadella)一個(gè)關(guān)于token價(jià)格的問題。
Dwarkesh Patel問:“智能已經(jīng)變得如此便宜。每百萬(wàn)個(gè)token只需2美分。我真的需要它繼續(xù)降到0.02美分嗎?(相比降價(jià))我更希望它變得更智能。如果你需要向我收費(fèi)100倍,那就進(jìn)行100倍或更多的訓(xùn)練,我樂見公司這么做。”
納德拉回應(yīng):“我認(rèn)為真正重要的是token的實(shí)用性。智能需要變得更好、更便宜。每當(dāng)有(技術(shù))突破時(shí),就像DeepSeek所做的那樣,token的有效性能邊界就會(huì)發(fā)生變化,曲線(模型性能與每個(gè)token成本之間的關(guān)系)就會(huì)彎曲,邊界也會(huì)移動(dòng)。這只會(huì)帶來(lái)更多的需求。”
就目前來(lái)看,GPT-4.5的曲線并不好看。
OpenAI坦言,GPT-4.5只是技術(shù)長(zhǎng)河中的“中間站”。
我們認(rèn)為,GPT-4.5更像是一次技術(shù)上的“微調(diào)”,而非劃時(shí)代的革新。
它承載了前幾代模型的優(yōu)化成果,也在為未來(lái)的升級(jí)鋪路,并未真正打破現(xiàn)有的技術(shù)框架。
可能OpenAI也不會(huì)急于跨越,畢竟最初的設(shè)想是從GPT-4到GPT-5,但接下來(lái)的幾個(gè)月里,我們大概率會(huì)看到 GPT-4.6、GPT-4.7之類的漸進(jìn)式演化。
但若每一次迭代都以指數(shù)級(jí)成本攀升為代價(jià),這條長(zhǎng)河的流向或許早已偏離初衷。
當(dāng)團(tuán)隊(duì)專注于“讓AI更懂人”,是否也該追問:技術(shù)進(jìn)化的終點(diǎn),究竟是為人類提供平等賦能,還是在算力競(jìng)賽中重塑新的權(quán)力結(jié)構(gòu)?
而答案或許藏在下一次提問中——當(dāng)我們不再問“海洋為什么是咸的”,而是“誰(shuí)來(lái)決定AI回答的價(jià)值”時(shí),真正的挑戰(zhàn)才剛剛開始。
(封面圖及文中未注明來(lái)源配圖來(lái)自O(shè)penAI)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.