果然,GPT-4.5在本周內推出了,性能全面超越GPT-4o; 但是,在推理等更“硬核”的性能上,不及o1和o3 mini (high)。
這是一個更強調情商的大模型;一個快思考,直覺,無監督學習+推理的大模型。它更擅長聊天;知識更淵博;更適于交談式的搜索;用來寫文章會更加自然——減少了機器感;最為人詬病的“幻覺”,有所減少;它更通人性。可能提供更多情緒價值。
GPT-4.5再一次證明,推理是未來大模型的核心能力,但同時OpenAI也在探索把預訓練和推理結合起來,互相增強,成為更通用和“天生更智能”的模型。這也許是即將于5月份推出的GPT-5的最大賣點。
如何訓練出來的
從GPT-4到4.5,增加0.5,意味著增加10倍的訓練算力。
OpenAI稱,這是迄今為止最大、最優秀的聊天模型。GPT-4.5在擴展預訓練和后訓練方面邁出了一大步。通過擴展無監督學習,GPT-4.5提升了其識別模式、建立聯系以及在不依賴推理的情況下生成創造性見解的能力。
初步測試表明,用戶與GPT-4.5的交互感覺更加自然。它更廣泛的知識庫、更強的用戶意圖理解能力以及更高的“情商”,使其在改進寫作、編程和解決實際問題等任務中非常有用。預計它的幻覺現象會更少。
(更深的世界知識:SimpleQA 在簡單但具有挑戰性的知識問題上衡量 LLM(大型語言模型)的真實性)
OpenAI引領了無監督學習和推理這兩個范式,來擴展智能的兩個維度。擴展推理?是教會模型在響應之前進行思考并生成思維鏈,使它們能夠解決復雜的STEM或邏輯問,o1和 o3-mini動了這一范式的發展。而無監督學習則提高了世界模型的準確性和直覺。
GPT-4.5通過擴展計算和數據,以及架構和優化創新來實現無監督學習擴展。GPT-4.5是在微軟Azure AI超級計算機上訓練的,擁有更廣泛的知識和對世界更深入的理解,從而減少了幻覺現象,并在廣泛的主題上表現出更高的可靠性。
OpenAI希望擴展兩種互補的范式來提升人工智能的能力。這次是把GPT-4.5作為研究預覽版發布,“以便更好地了解其優勢和局限性。我們仍在探索它的能力,并期待看到人們以我們可能未曾預料的方式使用它。”
這個模型有多大
OpenAI 在一份之前泄露的文件中表示:“GPT-4.5 不是前沿模型,但它是 OpenAI 最大的 LLM,將 GPT-4 的計算量提高了 10 倍以上。”“與之前的推理版本相比,它沒有引入 7 個全新的前沿功能,而且在大多數準備評估中,它的性能低于 o1、o3-mini 和深度研究。” 但OpenAI在正式宣布的文本中刪除了這幾句話。
GPT-4有大約1.8萬億個參數,如果用于訓練4.5的算力高出一個數量級,會有多少參數呢?也許可以從其服務價格上做出一些判斷。它比GPT-4o貴15倍,比Claude 3.7貴10-25倍。OpenAI承認,GPT-4.5 是一個非常龐大且計算密集型的模型,因此它比 GPT-4o 更昂貴,但不能替代它。
OpenAI似乎在向人們暗示,GPT 4.5似乎是一個過渡性的產品。“我們正在評估是否繼續在 API 中長期提供服務,因為我們在支持當前功能和構建未來模型之間取得平衡。”
OpenAI期待“計算的每一個新數量級都會帶來新功能”,的確,增加十倍的算力,拓展了世界知識,但在推理相關的的基準測試上,效果并不顯著。
作為無監督學習前沿的模型,GPT-4.5就像在學校里不守規矩、考試成績不那么好、情商很高的學生,將來是不是也會很有出息,但要證明這些,需要擺脫試卷、走出校園。
所以,OpenAI期待它能在社會上混出個樣子,大家都來關心它的成長,“社區在發掘新功能和意想不到的用例方面的創造力不斷令我們感到驚訝。借助 GPT-4.5,我們邀請您與我們一起探索無監督學習的前沿并發掘新功能。”
(人類偏好衡量:測試人員查詢后,偏好 GPT-4.5 而不是 GPT-4o 的百分比)
如何使用
Pro 用戶已經用上了,下周向 Plus 和 Team 用戶推出,之后再向 Enterprise 和 Edu 用戶推出。現在也可在 Microsoft 的 Azure AI Foundry平臺上使用,同時還有來自 Stability、Cohere 和 Microsoft 的新模型。
用戶可以通過ChatGPT使用GPT-4.5。它可以通過搜索獲取最新信息,支持文件和圖片上傳,并可使用畫布進行寫作和編碼。不過,GPT?4.5 目前不支持 ChatGPT 中的語音模式、視頻和屏幕共享等多模式功能。接下來,OpenAI將努力簡化用戶體驗,讓 AI “為你而工作”。
在API里,OpenAI還將向所有付費使用層級的開發人員提供預覽,包括 Chat Completions API、Assistant API 和 Batch API 中的 GPT?4.5 。該模型支持函數調用、結構化輸出、流式傳輸和系統消息等關鍵功能。它還通過圖像輸入支持視覺功能。
OpenAI將推出GPT-5,它將是一個集大成者,包括了去年12月份宣布的o3。預計5月發布。
OpenAI CEO 奧特曼說過,GPT-4.5將是最后一個非思維鏈模型。它也意味著,大語言模型如果不帶思維推理功能,僅憑在訓練階段擴展無監督學習,已經發展到了頂峰。他事先已經承認,GPT-4.5 是一個“龐大、昂貴的模型”,并且“不會超越基準”。它的科學、數學、編程這三項測試,分數與o3-mini (high)差距明顯。但在多語言、多模態和較初級的編程測試方面,勝過了o3-mini (high)。
所以,它更像是OpenAI在過近兩年時間里花費巨資進行預訓練后給出的一個交待。
*數據代表內部測試最佳性能
大咖測評
AI大神卡帕西的測評:
今天, OpenAI 發布了GPT-4.5。自從 GPT-4 發布以來,我已經期待了大約兩年,因為這次發布提供了一個定性的衡量標準,展示了通過擴展預訓練計算(即簡單地訓練一個更大的模型)所帶來的改進 斜率 。每個0.5版本的提升大致相當于10倍的預訓練計算量。
現在,回想一下,GPT-1幾乎無法生成連貫的文本。GPT-2是一個混亂的玩具。GPT-2.5被“跳過”,直接進入了GPT-3,這更加有趣。 GPT-3.5 跨過了門檻,足以作為一個產品發布,并引發了 OpenAI 的“ ChatGPT 時刻”。而 GPT-4 感覺更好,但我會說,這種改進確實很微妙。我記得曾參加過一個黑客馬拉松,試圖找到GPT-4明顯優于3.5的具體提示。這些提示確實存在,但清晰且具體的“扣籃”例子很難找到。這就是……一切都只是稍微好了一點,但以一種分散的方式。詞匯選擇更有創意。對提示中細微差別的理解有所提高。類比更有意義。模型更有趣一些。在罕見領域的邊緣,世界知識和理解有所提高。幻覺出現的頻率稍微降低了一些。整體感覺更好了一些。感覺就像是水漲船高,一切都稍微提高了20%。
因此,帶著這種期望,我開始測試GPT-4.5,我已經接觸了幾天,它的預訓練計算量是 GPT-4 的10倍。我感覺,我再次置身于兩年前的那個黑客馬拉松中。一切都稍微好了一點,這很棒,但也并不容易明確指出具體好在哪些方面。盡管如此,作為另一種定性衡量標準,它仍然非常有趣和令人興奮,展示了僅僅通過預訓練一個更大的模型就能“免費”獲得的能力提升。
請記住,GPT-4.5只進行了預訓練、監督微調和 RLHF (人類反饋 強化學習 )訓練,因此它還不是一個推理模型。因此,在推理至關重要的領域(如數學、代碼等),這個模型的發布并沒有推動模型能力的提升。在這些情況下,通過強化學習進行訓練并獲得思考能力非常重要,效果也更好,即使是在一個較舊的基礎模型(例如 GPT-4 級別的能力)上進行訓練。目前的最先進技術仍然是完整的o1。 可以推測, OpenAI 現在將尋求在GPT-4.5模型的基礎上進一步進行強化學習訓練,使其能夠思考,并推動這些領域的模型能力。
然而,我們確實期望在那些不依賴推理的任務中看到改進,我會說這些任務更多與情商(而非智商)相關,并且受限于世界知識、創造力、類比能力、一般理解力、幽默感等。因此,這些任務是我在“感覺檢查”中最感興趣的。
Box CEO Aaron Levie測評:使用 GPT-4.5 來幫助從復雜的企業內容中提取結構化數據和元數據。
人工智能的突破接踵而至。 OpenAI 剛剛發布了GPT-4.5,我們將在今天晚些時候通過Box AI Studio向Box客戶提供這一新模型。
我們已經在Box AI 的早期訪問模式下測試了GPT-4.5,針對高級企業非結構化數據用例進行了評估,并取得了顯著成果。通過Box AI企業評估,我們測試了模型在各種不同場景下的表現,如問答準確性、推理能力等。特別是為了探索GPT-4.5的能力,我們專注于一個對企業具有重大潛在影響的關鍵領域:從復雜的企業內容中提取結構化數據或元數據。
在Box,我們使用多個企業級數據集嚴格評估數據提取模型。其中一個關鍵數據集是CUAD,它包含超過510份商業法律合同。在該數據集中,Box識別了17,000個可以從非結構化內容中提取的字段,并基于對這些字段的單次提取(這是我們最難的測試,模型只有一次機會一次性提取所有元數據,而不是多次嘗試)評估了模型的表現。在我們的測試中,GPT-4.5比GPT-4o準確提取的字段多出19個百分點,突顯了其處理復雜合同數據的能力提升。
接下來,為了確保GPT-4.5能夠應對現實世界企業內容的需求,我們針對一組更嚴格的文檔——Box自己的挑戰集——評估了其表現。我們選擇了一組復雜的法律合同子集,這些合同包含多模態內容、高密度信息且長度超過200頁,代表了客戶面臨的一些最困難場景。在這個挑戰集上,GPT-4.5在提取關鍵字段時的準確性也始終優于GPT-4o,展示了其處理復雜且微妙的法律文檔的卓越能力。
總體而言,我們看到GPT-4.5在復雜企業數據方面表現強勁,這將為企業解鎖更多用例。
不過,在這個DeepSeek的開源周里,GPT-4.5仍然守口如瓶,引發了AI研究者的吐槽:
GPT2和GPT3是 技術報告 的美好舊時光。
GPT3.5至少還有InstructGPT報告。
GPT4則有更強大、更復雜的 MoE (混合專家模型)傳聞。
有人知道GPT4.5有什么新東西嗎?
大語言模型的詛咒者Gary Marcus,不出所料地又跳出來噴:我早就說過,Scaling Law (擴展定律)根不是物理定律。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.