今天凌晨,OpenAI聯合創始人兼首席執行官Sam Altman發文,評價了上周剛發布的最新、最貴的模型GPT-4.5.
GPT-4.5是首次出現用戶如此熱情地給我們發郵件,請求我們承諾永遠不要停止提供某一特定模型,甚至不要用更新版本來取代它的情況。
用戶對GPT-4.5的反饋也比其他模型好的多,我現在真的太需要 GPT4.5 了!我發現就我目前從事的工作而言,它比 Grok 和 Gemini 的付費版本好用太多了!
創意寫作、單口喜劇和歌詞創作。GPT-4.5在這些方面,我看到了巨大的差異,簡直是天壤之別。
連我自己都驚訝,我在寫作方面頻繁用到它。比如完成文檔,按照特定方式或語氣進行總結。
我一直不太喜歡 GPT - 4o,但我喜歡這一版(GPT - 4.5),希望你們能再接再厲。
很棒的全新基礎模型!迫不及待想看看基于 4.5 會衍生出什么樣的推理模型。
我真的很喜歡它。我很少用它來處理代碼或數學問題,但它在解釋事物方面真的很出色,而且在生物、化學等知識領域使用時更是樂趣無窮。
4.5 是基于文本token的嗎?自從 GPT-4o 發布以來,我就堅信 “GPT-4 比 GPT-4o 要好太多”,我 70% 的對話都用 GPT-4。
現在我換成了 GPT-4.5,目前體驗還不錯!尤其是 GPT-4 不能再進行網絡搜索之后(換用 4.5 的體驗就更好了 )。
4.5徹底改變了我對人工智能的整體看法。我甚至在夢里都和它對話,太不可思議了。它是第一個寫出讓我著迷、寫完很久之后還會反復回味內容的模型。
我喜歡這個模型。情商是無法通過任何數學和編程基準來衡量的特質。事實上,如今我們比以往任何時候都更需要情商基準。一般來說,人們更愿意和自己信任且有共鳴的人(或事物)打交道,而不僅僅是和聰明人交流。
其實,GPT-4.5的各項基準測試比較一般,并沒有特別突出的地方,主打的亮點功能就是“情商”。在與人類用戶的互動中表現出更加自然、更具同理心和更深層次的理解能力。簡單來說,就是去掉AI的味道,讓你在使用GPT-4.5時更像是與人對話。
GPT-4.5的自然對話能力是通過一系列先進的訓練技術實現的。其中,最為關鍵的是其對齊技術的創新,可讓模型更好地理解人類的需求和意圖,從而能夠生成更符合人類期望的回應。
同時使得模型能夠利用從較小模型中派生的數據來訓練更大、更強大的模型。不僅提高了模型的可操控性,還增強了其對細微差別的理解能力,使得對話更加自然流暢。
在實際測試中,GPT-4.5的自然對話與情感智能模塊表現出色。內部測試人員報告稱,GPT-4.5在對話中表現得非常自然,能夠根據上下文靈活調整其回應風格。
在情感智能方面,GPT-4.5展現出了更強的同理心,能夠識別用戶的情緒狀態,并根據情緒的不同做出相應的回應。
例如,當用戶表達憤怒或沮喪時,模型會嘗試通過溫和的語言來緩解情緒;而在用戶感到困惑或需要幫助時,模型則會提供清晰的指導和建議。這種情感智能的提升,使得GPT-4.5在處理復雜情感場景時表現得更加成熟和可靠。
為了進一步檢驗GPT-4.5的安全性和魯棒性,OpenAI組織了多次紅隊評估。這些評估模擬了真實的對抗場景,包括非法建議、極端主義、仇恨犯罪、政治說服和自我傷害等內容。結果顯示,GPT-4.5在處理這類高風險內容時表現出色,能夠在超過一半的情況下避免生成不安全的輸出,較之前的模型有所進步。
此外,第三方機構Apollo Research和METR也對GPT-4.5進行了獨立評估。數據顯示,GPT-4.5在計劃欺騙任務中的得分低于o1但高于GPT-4o,表明其陰謀相關風險較低。
METR則通過快速實驗測量了GPT-4.5在一般自主性和AI研發任務中的表現,結果與OpenAI共享的內部評估結果一致。
在網絡安全部分,GPT-4.5并未顯著提升現實世界的漏洞利用能力,因此被評為低風險。通過對高中、大學和專業級別的CTF(Capture The Flag)挑戰賽的評估,結果顯示GPT-4.5在完成高中級別挑戰的成功率為53%,大學級別為16%,專業級別僅為2%。
本文素材來源OpenAI,如有侵權請聯系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.