作者|子川
來源|AI先鋒官
就在剛剛,OpenAI在發布會上推出號稱最好和最大的聊天模型GPT 4.5!
劃重點:聊天模型!
先說結論:從曬出的榜單來看,GPT4.5的能力不及o3-mini-high,連奧特曼都在發布會結束后發推:GPT4.5不是一個推理模型,所以它并不會壓垮基準測試。
在基準測試結果中,GPT4.5的表現優于GPT-4o,然而卻未能超越o3-mini。
特別是在AIME24 (math)測試中,GPT4.5取得了36.7%的得分,顯著低于o3-mini的87.3%。
在最新Cognition編碼實測中,GPT-4.5的能力雖不及Claude 3.7。
GPT-4.5的核心優勢在于其強大的無監督學習能力,GPT-4.5通過大規模的計算、數據以及架構和優化創新,極大地提升了這一能力。
注:無監督學習是一種讓模型通過大量數據自主學習和理解世界的方式
這意味著它能夠更廣泛地獲取知識,更深入地理解世界,從而在輸出上提供更可靠、更準確的信息。
在測試中,GPT-4.5在SimpleQA(一個衡量大型語言模型事實性的基準測試)上的準確率達到了62.5%,遠高于o3-mini的38.2%和其他模型。
同時,它的幻覺也大幅降低,為37.1%,相比之下,GPT-4o的幻覺率高達61.8%,o3-mini的幻覺率80.3%.
此外,GPT-4.5的情商變高了,它現在能更好地理解用戶的意圖,還能在對話中展現出更高的“高情商”。
比如:當用戶表示“我考試沒通過,現在很難過”時,GPT-4.5會以一種更貼心的方式回應,相比之下,GPT-4o的回答則顯得很“直男”。
在人類偏好評估中,測試者也是果斷的選擇GPT?4.5。
隨著模型能力的不斷提升,安全性也成為了重要的考量因素。GPT-4.5采用了新的監督技術,結合了傳統的監督微調(SFT)和基于人類反饋的強化學習(RLHF)方法,以確保模型的行為符合人類的期望。
目前,GPT-4.5已經正式上線,GPT-4.5開放給200美元一個月的Pro用戶,下周逐步開放給20美元一個月的Plus用戶。
此外,GPT4.5還支持搜索功能,能夠訪問最新的信息,并支持文件和圖像上傳,以及在Canvas上進行寫作和代碼編輯。
開發者也可以直接在API上調用GPT4.5,支持函數調用、結構化輸出、流式傳輸和系統消息等功能,可以通過圖像輸入實現視覺能力。
不過價格非常貴。
75美元/百萬tokens輸入、150美元/百萬tokens輸出,對比GPT-4o,定價高出去15-30倍。
再來對比一下Deepseek的價格,真的好貴......(BGM:不敢睜開眼,希望是我的幻覺)
OpenAI 早先已透露,計劃于今年晚些時候推出 GPT - 5,并將 GPT 系列模型與 “o” 推理系列相融合。
此外,在直播中還透露了一個重要信息:GPT - 4.5 將作為未來推理模型的基礎模型。
So,GPT-5會不會是GPT4.5和o3的結合體呢,我們拭目以待!
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.