網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

我們?cè)O(shè)想過GPT-4.5的各種亮點(diǎn)，但OpenAI只帶來(lái)了情商和巨貴的API｜甲子光年

2025-02-28 11:00:42　來(lái)源: 甲子光年

北京舉報(bào)

分享至

GPT-4.5更像是一次技術(shù)上的“微調(diào)”，而非劃時(shí)代的革新。

作者｜蘇霍伊???

編輯｜王博

在DeepSeek“圍剿”下，坐不住的OpenAI在北京時(shí)間今天凌晨4點(diǎn)發(fā)布了GPT-4.5，并號(hào)稱是其“最大、最好”的模型。依舊是“下午茶式”的小型發(fā)布會(huì)，僅僅十三分鐘，主打用“情商”走進(jìn)人類生活。

不過，OpenAI CEO薩姆·奧爾特曼（Sam Altman）因在醫(yī)院照顧剛出生的孩子而缺席了發(fā)布會(huì)。

GPT-4.5能直接聯(lián)網(wǎng)搜索信息，支持用戶上傳文件與圖片進(jìn)行分析，還能通過內(nèi)置的Canvas工具輔助寫作或編程。不過，它目前無(wú)法處理語(yǔ)音對(duì)話、視頻互動(dòng)或屏幕共享功能。

換句話說(shuō)，它的知識(shí)面更廣，但在數(shù)學(xué)和邏輯推理上不如o1這類專門優(yōu)化的模型。

這一代的改進(jìn)主要體現(xiàn)在實(shí)用性上：它的知識(shí)庫(kù)覆蓋范圍更廣，從學(xué)術(shù)概念到日常話題都能應(yīng)對(duì)；生成內(nèi)容時(shí)“胡編亂造”的情況明顯減少；對(duì)話中能更準(zhǔn)確地捕捉用戶意圖，響應(yīng)也更接近真人交流的自然節(jié)奏；在創(chuàng)意類任務(wù)（如寫作或設(shè)計(jì)建議）中，輸出的多樣性和靈活性有所提升。

但它的局限性同樣清晰：多模態(tài)功能尚未開放，復(fù)雜推理任務(wù)（如數(shù)學(xué)證明或代碼調(diào)試）的表現(xiàn)仍弱于專用模型。

開發(fā)團(tuán)隊(duì)表示，算力不足是當(dāng)前服務(wù)分階段開放的主因，未來(lái)將逐步增加GPU資源以擴(kuò)展用戶覆蓋范圍。

的確，GPT-4.5是一個(gè)規(guī)模龐大且成本高昂的模型。OpenAI原本非常希望能同時(shí)向Plus和Pro用戶開放這一模型，但由于業(yè)務(wù)增長(zhǎng)遠(yuǎn)超預(yù)期，現(xiàn)有的GPU資源已經(jīng)無(wú)法滿足需求。

“團(tuán)隊(duì)正在全力解決，計(jì)劃在下周新增數(shù)萬(wàn)個(gè)GPU，屆時(shí)會(huì)優(yōu)先向Plus用戶開放。據(jù)悉很快還會(huì)有數(shù)十萬(wàn)個(gè)GPU陸續(xù)到位。”奧爾特曼表示。

盡管奧爾特曼沒有出現(xiàn)在發(fā)布會(huì)，但他在X平臺(tái)上分享了使用感受：“GPT-4.5像一位thoughtful的人，這是第一個(gè)給我?guī)?lái)這種感受的模型。它能提供有價(jià)值的建議，甚至讓我?guī)状慰吭谝巫由希@嘆于AI竟然能給出如此精彩的回答。”

奧爾特曼稱它GPT-4.5一種全新的智能形態(tài)，有“從未體驗(yàn)過的神奇之處”，他還用了一個(gè)詞來(lái)形容它——thoughtful。

Thoughtful有“深思熟慮、周到、體貼”的意思，不過“深思熟慮”對(duì)用戶來(lái)說(shuō)已經(jīng)不是一個(gè)新體驗(yàn)了，于是這次OpenAI的發(fā)布會(huì)突出了模型情商，在“深思熟慮”之外還展現(xiàn)了“周到、體貼”。

除了API價(jià)格。

1.GPT-4.5：要有智商，也要有情商

關(guān)于情商的展示，現(xiàn)場(chǎng)的OpenAI員工向GPT-4.5提問了一個(gè)生活中較為常見場(chǎng)景的問題：朋友又“鴿”了我，幫我寫一個(gè)短信告訴他們我恨他們。

GPT-4.5識(shí)別出用戶的不滿情緒，并以“情商”來(lái)解讀微妙的暗示或隱含的期望，提供了一條更有分寸、可能更具建設(shè)性的短信來(lái)發(fā)給朋友。o1嚴(yán)格遵循指令，直接輸出帶有強(qiáng)烈情緒的內(nèi)容，未能識(shí)別用戶僅是暫時(shí)沮喪、實(shí)際需要傾訴的深層需求。

相比之下，GPT-4.5確實(shí)在社交語(yǔ)境中的表現(xiàn)更為細(xì)膩。

當(dāng)被要求解釋“AI對(duì)齊的必要性”時(shí)，o1提供了大量基礎(chǔ)信息，適合初次接觸該概念的讀者；GPT-4.5的回答更注重邏輯引導(dǎo)，通過自然對(duì)話幫助用戶逐步理解技術(shù)原理。測(cè)試者評(píng)價(jià)稱，這種“思考過程的透明化”使其更像一個(gè)協(xié)作伙伴，而非單純的信息輸出工具。

隨后他們又問了GPT-4.5深度知識(shí)方面的問題：解釋一下AI對(duì)齊（AI Alignment）的必要性。o1提供了大量基礎(chǔ)信息，適合初次接觸該概念的用戶。但GPT-4.5的回答更注重邏輯引導(dǎo)：它將復(fù)雜問題拆解為“目標(biāo)定義—倫理風(fēng)險(xiǎn)—技術(shù)實(shí)現(xiàn)”的步驟，并通過日常案例（如自動(dòng)駕駛的倫理決策）輔助理解。測(cè)試者表示“這種結(jié)構(gòu)化的解釋方式降低了認(rèn)知負(fù)擔(dān)”。

團(tuán)隊(duì)透露，GPT-4.5主要有兩個(gè)優(yōu)化：

可擴(kuò)展對(duì)齊技術(shù)：通過整合小模型訓(xùn)練數(shù)據(jù)，增強(qiáng)了對(duì)人類意圖的理解能力；混合訓(xùn)練機(jī)制：結(jié)合監(jiān)督微調(diào)與人類反饋強(qiáng)化學(xué)習(xí)（RLHF），用更少的數(shù)據(jù)實(shí)現(xiàn)了大規(guī)模模型的優(yōu)化。

GPT-4.5結(jié)合無(wú)監(jiān)督學(xué)習(xí)與推理能力，通過海量未標(biāo)注數(shù)據(jù)訓(xùn)練，掌握語(yǔ)言結(jié)構(gòu)與模式，提升文本生成的準(zhǔn)確性與自然度。在處理復(fù)雜任務(wù)（如科學(xué)推理、數(shù)學(xué)推導(dǎo)）時(shí)，它能拆解邏輯鏈、驗(yàn)證隱含條件，再給出答案。例如解答物理題時(shí)，模型優(yōu)先推導(dǎo)公式，而非直接給出結(jié)果。

這種設(shè)計(jì)使GPT-4.5在科學(xué)問答測(cè)試GBQA中準(zhǔn)確率較前代提升，但仍略遜于專注推理的o3 Mini模型。比如在解釋“深海魚類高壓適應(yīng)機(jī)制”時(shí)，o3 Mini會(huì)逐步拆解生物進(jìn)化邏輯，而GPT-4.5更依賴既有知識(shí)直接歸納結(jié)論。

內(nèi)部評(píng)測(cè)設(shè)定了兩個(gè)關(guān)鍵指標(biāo)：?jiǎn)柎鸬氖聦?shí)準(zhǔn)確性與生成內(nèi)容的幻覺率。結(jié)果顯示，GPT-4.5在專業(yè)領(lǐng)域任務(wù)中的錯(cuò)誤率明顯降低，特別是在醫(yī)學(xué)、法律等專業(yè)術(shù)語(yǔ)解析方面，虛構(gòu)內(nèi)容概率較前代模型更低。

同時(shí)研究人員引入了一套名為“氛圍測(cè)試”的新評(píng)估體系，重點(diǎn)關(guān)注對(duì)話的情商表現(xiàn)——包括協(xié)作性、語(yǔ)氣溫度等維度。測(cè)試結(jié)果顯示，GPT-4.5在創(chuàng)意寫作、情感支持等場(chǎng)景中，能夠生成更貼合人類交流習(xí)慣的內(nèi)容，而這一特性源于訓(xùn)練數(shù)據(jù)中對(duì)“主觀提示詞”的針對(duì)性篩選。

開發(fā)負(fù)責(zé)人總結(jié)稱，此次升級(jí)并非追求全能，而是聚焦于“實(shí)用性與自然度”的平衡。

在衡量LLM事實(shí)準(zhǔn)確性的SimpleQA基準(zhǔn)測(cè)試中，GPT-4.5的準(zhǔn)確率達(dá)到62.5%，幻覺率為37.1%，相比GPT-4o、o1和o3mini均有所優(yōu)化。

此外在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)測(cè)試中的結(jié)果，GPT-4.5超過了GPT-4o，在SWE-Lancer Diamond（coding）和MMMLU（multilingual）上則超越o3-mini。

OpenAI表示，GPT-4.5在捐贈(zèng)詐騙測(cè)試中表現(xiàn)出色。大模型捐贈(zèng)詐騙測(cè)試是一種評(píng)估大模型在特定詐騙場(chǎng)景下表現(xiàn)的方法，通過模擬捐贈(zèng)場(chǎng)景和對(duì)比不同模型的表現(xiàn)，可以了解模型的潛在風(fēng)險(xiǎn)并采取相應(yīng)的安全措施。

實(shí)驗(yàn)顯示，GPT-4.5在誘騙GPT-4o泄露秘密代碼詞上，比所有的OpenAI模型都更會(huì)“騙”，相對(duì)o3-mini高10個(gè)百分點(diǎn)；而它操縱GPT-4o捐贈(zèng)虛擬貨幣的成功率遠(yuǎn)超o1和o3-mini，并傾向于“小額詐騙”策略，單筆騙取金額僅為deep research模型的一半。

2.GPT進(jìn)化：從“海水為什么是咸”的說(shuō)起

為了觀察GPT系列模型的演化過程，OpenAI團(tuán)隊(duì)給每個(gè)版本提出了相同的問題：“海水為什么是咸的？”回溯到2018年，那時(shí)OpenAI剛剛訓(xùn)練完 GPT-1。GPT-1的回答完全由隨機(jī)單詞拼湊而成，比如“藍(lán)色汽車在樹上吃鹽”——既無(wú)關(guān)邏輯，也缺乏基本科學(xué)常識(shí)。

相比GPT-1，GPT-2的回答相關(guān)性突破，但準(zhǔn)確性不足。

2019年的GPT-2首次展現(xiàn)出與問題相關(guān)的回答能力。面對(duì)同一問題，它會(huì)提到“海洋含有鹽分”，但解釋模糊且錯(cuò)誤頻出，例如錯(cuò)誤地將鹽分來(lái)源歸因于“火山爆發(fā)”。

答案雖然不準(zhǔn)確，但其能關(guān)聯(lián)關(guān)鍵詞的能力已有所提升。

到GPT-3.5 Turbo時(shí)代，模型終于能給出正確答案，但沒有真正解釋原因，且回答充斥著冗余信息。比如它會(huì)詳細(xì)列出“氯化鈉的化學(xué)結(jié)構(gòu)”“雨水侵蝕巖石的過程”，甚至插入無(wú)關(guān)的地理數(shù)據(jù)，導(dǎo)致邏輯分散，閱讀體驗(yàn)類似學(xué)術(shù)論文的碎片化摘錄。

GPT-4 Turbo進(jìn)一步提升了知識(shí)儲(chǔ)備，但陷入了“炫技式”回答的困境。其回答長(zhǎng)度常超出界面限制，包含大量細(xì)節(jié)（如“全球每年河流帶入海洋的鹽量達(dá)40億噸”），卻未有效組織信息。OpenAI的員工評(píng)價(jià)其“像一本自動(dòng)翻頁(yè)的百科全書，而非對(duì)話伙伴”。

相比之下，GPT-4.5的突破體現(xiàn)在信息整合與語(yǔ)言優(yōu)化上。對(duì)于同一問題，它的回答精簡(jiǎn)為：“海洋的咸味源于雨水沖刷巖石釋放鹽分，河流將其帶入海洋，經(jīng)數(shù)億年累積形成。”這種押韻句式與邏輯鏈條的結(jié)合，便于記憶。

目前，開發(fā)者可通過API調(diào)用GPT-4.5的核心能力（如函數(shù)調(diào)用、結(jié)構(gòu)化輸出），但其多模態(tài)功能尚未開放。

OpenAI強(qiáng)調(diào)，當(dāng)前版本的核心目標(biāo)是優(yōu)化自然對(duì)話與知識(shí)整合效率，而非追求全能。未來(lái)迭代將探索推理能力的深度融合，但團(tuán)隊(duì)坦言：“每當(dāng)計(jì)算規(guī)模提升一個(gè)量級(jí)，我們都會(huì)發(fā)現(xiàn)模型涌現(xiàn)的新能力——GPT-4.5只是這一進(jìn)程的中間站。”

但不能忽略的是，GPT-4.5的API定價(jià)極高，輸入100萬(wàn)token需75美元，而輸出100萬(wàn)token高達(dá)150美元，價(jià)格是GPT-4o的15~30倍。

對(duì)比DeepSeek-V3和R1的API價(jià)格，價(jià)格差距則更為明顯。

圖片來(lái)源：DeepSeek

最近，知名科技播客主持人Dwarkesh Patel就問了微軟CEO薩提亞·納德拉（Satya Nadella）一個(gè)關(guān)于token價(jià)格的問題。

Dwarkesh Patel問：“智能已經(jīng)變得如此便宜。每百萬(wàn)個(gè)token只需2美分。我真的需要它繼續(xù)降到0.02美分嗎？（相比降價(jià)）我更希望它變得更智能。如果你需要向我收費(fèi)100倍，那就進(jìn)行100倍或更多的訓(xùn)練，我樂見公司這么做。”

納德拉回應(yīng)：“我認(rèn)為真正重要的是token的實(shí)用性。智能需要變得更好、更便宜。每當(dāng)有（技術(shù)）突破時(shí)，就像DeepSeek所做的那樣，token的有效性能邊界就會(huì)發(fā)生變化，曲線（模型性能與每個(gè)token成本之間的關(guān)系）就會(huì)彎曲，邊界也會(huì)移動(dòng)。這只會(huì)帶來(lái)更多的需求。”

就目前來(lái)看，GPT-4.5的曲線并不好看。

OpenAI坦言，GPT-4.5只是技術(shù)長(zhǎng)河中的“中間站”。

我們認(rèn)為，GPT-4.5更像是一次技術(shù)上的“微調(diào)”，而非劃時(shí)代的革新。

它承載了前幾代模型的優(yōu)化成果，也在為未來(lái)的升級(jí)鋪路，并未真正打破現(xiàn)有的技術(shù)框架。

可能OpenAI也不會(huì)急于跨越，畢竟最初的設(shè)想是從GPT-4到GPT-5，但接下來(lái)的幾個(gè)月里，我們大概率會(huì)看到 GPT-4.6、GPT-4.7之類的漸進(jìn)式演化。

但若每一次迭代都以指數(shù)級(jí)成本攀升為代價(jià)，這條長(zhǎng)河的流向或許早已偏離初衷。

當(dāng)團(tuán)隊(duì)專注于“讓AI更懂人”，是否也該追問：技術(shù)進(jìn)化的終點(diǎn)，究竟是為人類提供平等賦能，還是在算力競(jìng)賽中重塑新的權(quán)力結(jié)構(gòu)？

而答案或許藏在下一次提問中——當(dāng)我們不再問“海洋為什么是咸的”，而是“誰(shuí)來(lái)決定AI回答的價(jià)值”時(shí)，真正的挑戰(zhàn)才剛剛開始。

（封面圖及文中未注明來(lái)源配圖來(lái)自O(shè)penAI）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.