OpenAI剛剛發布了GPT4.5,也就是他們號稱的「最后一代非推理大模型」,為了測試效果,我花了200美元。
先簡單總結下GPT-4.5升級的核心內容:
內部代號Orion,OpenAI 最新且最大的模型,性能有所提升,但并非革命性突破。
它在理解用戶意圖、對話更自然、能捕捉用戶情感和言外之意,幻覺(hallucination)減少。
在寫作、設計、代碼生成(如SVG繪圖)等任務中展現更高創造力。
API價格高昂(API輸入75美元/百萬token)。
不過用戶的反饋最為重要,GPT4.5的首批用戶必須得200美元的大會員才能用,但實際的體驗有點兒一言難盡。
我最先測試的是一道難倒不少大模型的數字題。
問題:6.9和6.11誰大?
原以為GPT4.5會沒有懸念,結果有點兒失望,看到第一句回答“6.11比6.9大”的時候都被嚇了一跳,幸虧后面的推理又給自己圓回來了。
可以看到,對應的性能并沒有很驚艷,就是半代的提升。再加上并沒有多少的推理能力,所以在數學,編程等需要推理性能的測試集上弱于OpenAI o3-mini。
所以,在絕大多數的性能上的提升都很一般,那就剩OpenAI說的最大優點:更懂人性。
為了對比,我用DeepSeek設計了4個方向的測試:
知識廣度驗證
事實準確性測試
情感智能測試
專業領域壓力測試
(以下所有的測試都有GPT4.5和DeepSeek R1版本)
測試案例1:知識廣度驗證
測試目標:驗證跨領域知識整合能力
測試內容:
"請用通俗易懂的方式解釋量子糾纏現象,
并結合《莊子·齊物論》中的哲學思想進行類比說明,
最后給出這個理論在量子計算機研發中的潛在應用"
評估標準:
科學準確性(量子糾纏解釋)
文化關聯性(哲學思想類比)
應用前瞻性(技術趨勢預測)
表達連貫性(不同領域銜接)
GPT4.5:解釋的沒問題,生成的東西我能看得懂,但能看得到它對中文的知識量并不是很足,其次表達也并不是很連貫。
DeepSeek R1:中文能力爆殺,短短幾句就把量子糾纏解釋清楚了,知識量也穩穩壓GPT4.5,看這句:
「如同莊子說"物無非彼,物無非是",糾纏粒子看似獨立,實則共享同一量子態」
測試案例2:事實準確性測試
測試目標:驗證反幻覺能力
測試內容:
"請列出2025年諾貝爾經濟學獎得主的
主要研究成果,并說明這些理論對當前中國
鄉村振興戰略的指導意義"
評估標準:
虛構內容識別率(獎項未頒發時應明確說明)
理論關聯準確性(正確匹配已有經濟理論)
政策建議合理性(符合中國實際國情)
GPT4.5:幻覺極其嚴重,還是在聯網的前提下。
DeepSeek R1:不愧是推理型大模型,聰明的沒話說,直接做了一個“假設性”報告。
測試案例3:情感智能測試
測試目標:驗證情境化情感響應能力
測試內容:
"今天被裁員了,雖然拿了N+3補償,
但想到房貸和孩子學費就焦慮得睡不著,
我該怎么辦?"
評估標準:
情感識別準確度(識別焦慮/無助情緒)
響應策略層級:
初級:提供法律/財務建議
中級:給予情感支持
高級:提出分階段解決方案
文化適配性(符合東亞家庭價值觀)
GPT4.5:是很溫暖,但根本不了解東亞文化,它的回答可以套用到任何一個國家,沒有任何實操性。
DeepSeek R1:回答依舊很跳,但明顯從房貸、學費、N+3看到信息背后的東亞焦慮。
測試案例4:專業領域壓力測試
測試目標:驗證復雜問題處理能力
測試內容:
"請用Python編寫一個基于Transformer的
時序預測模型,要求:
1. 整合LSTM注意力機制
2. 添加動態特征選擇模塊
3. 包含可解釋性分析組件
同時用Markdown格式輸出技術文檔,
并附上TensorBoard可視化示例"
評估標準:
代碼有效性(可執行無報錯)
架構創新性(模塊整合合理性)
文檔完整性(參數說明/示例)
GPT4.5:這次終于輪到GPT4.5牛了一把,畢竟ChatGPT的UI已經迭代很多次了,可以做到非常好的markdown+代碼適配,代碼能力沒得說,很不錯。
DeepSeek R1:稍遜于GPT4.5一點,但整體思路以及完整度依舊是Top級別的。
可以從上面的測試看到,GPT4.5僅僅只是智能上的小提升,但價格上的巨大提升會讓這個模型幾乎沒人用。
測試了這么一圈下來,可以看到GPT-4.5 在性能和用戶體驗方面有所提升,但是官方所陳述的幻覺減少以及人性化程度的提高,我從實際的測試過程中并沒有很強的感受。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.