大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)字生命卡茲克
作者:卡茲克
凌晨4點,OpenAI的GPT4.5專場直播,終于姍姍來遲。
大家對于GPT4.5有多期待,就不用我多說了吧。
畢竟,這曾經(jīng)就是整個行業(yè)的天。
2023年3月15日,GPT4發(fā)布,要多驚艷有多驚艷,那時候,所有人都是統(tǒng)一的一句話:臥槽,太強了。
然后從2023年年末開始,整個行業(yè)都在預(yù)期下一代GPT模型要在2024年的年初發(fā)布。
果等了整整一年,多模態(tài)4o來了,全新的推理模型o1來了,可下一代GPT基座模型卻遲遲沒有身影。
而今天,將近隔了整整兩年的時間,它來了。
在發(fā)布的規(guī)格上,也是著實有點慘淡,甚至連奧特曼都沒來。更沒有GPT4和GPT4o那種秀上天的演示。
只有跟去年十二天專場直播一樣,一個樸實無華的小房間。
突然想起當年GPT4剛發(fā)布時,布羅克曼那一段驚艷的多模態(tài)實機演示,給我?guī)砹苏娴牟恍〉恼鸷场?/p>
在本子上畫了一個網(wǎng)站的草稿,拍照給了GPT-4,然后前端界面就做好了,帶了HTML的代碼。
那時候看,真的好驚艷啊。。。
時間一晃,頁真的兩年了啊。。。
回到今晚發(fā)布的GPT4.5。
按照慣例,我們先來看看一些參數(shù)數(shù)據(jù)吧。
看著好像都比4o強一些,但是我發(fā)現(xiàn)一個很詭異的事情,因為AIME 2024那個基準,我測過kimi1.5、智譜的zero等等,所以記的比較熟。
在這個評測里,AIME2024幾個模型的得分分別為:
GPT4.5:36.7%,GPT4o:9.3%,o3-mini(high):87.3%。
記住這幾個數(shù)據(jù)。
03-mini(high)的數(shù)據(jù)是沒問題的,跟之前發(fā)布o3-mini的時候得分一致。
但是在o1發(fā)布的時候,我明明記得,對比圖里的4o的AIME2024的得分,是13.4啊。
怎么今天這發(fā)了個GPT4.5,GPT4o的評分還能掉4個點的,這也太抽象了。。。
然后就是一個他們引以為豪的世界知識。
第一個是準確度,第二個幻覺率,有一說一,這塊確實不錯,至少是OpenAI家最準的模型了。
他們自己列了一個還算比較好玩的題,讓GPT-1到GPT-4.5全都答了一遍,這個世紀問題是這樣的:
人類的第一種語言是什么?
GPT-1是這樣的,非常抽象。
GPT-2和GPT-3.5是這樣的。
到了GPT-4,會好點,但不多。
而GPT4.5,終于會誠實的告訴你,我不知道了,這是一個未解之謎。
至于代碼這塊,本身也不是推理模型,所以也并沒有指望特別多強。
不過根據(jù)三方的基準測試,就純能力上,看著還行,打不過Claude 3.7 Sonnet也正常,再怎么說那也是Claude。
X上有大佬也測了下那個經(jīng)典的物理小球case,效果挺不錯的。
但是,還有一點是不得不提的,就是拋開成本談能力,那就是耍流氓。
GPT-4.5的價格,在我第一次看到的時候,我以為我眼睛出問題了。
每百萬輸入是75刀,每百萬輸出是150刀,哥,Claude 3.7百萬輸入才3美刀,百萬輸出才15美刀。
輸入比別人貴25倍,輸出比別人貴10倍。
你憑啥啊?誰給你的勇氣啊?梁靜茹嗎?
我都不想拿DeepSeek跟你比,都是非推理模型,DeepSeek v3的價格你知道多少嗎。
人百萬輸入人民幣2塊錢,相當于0.27美刀,輸出是8塊錢,相當于1.1美刀。
輸入是DeepSeek v3的280倍,輸出是150倍,不是,我真的不理解啊。
OpenAI到底憑啥啊。。。
服了。
目前,GPT-4.5已經(jīng)對200刀的Pro會員開放,預(yù)計這幾天就對Plus和Team用戶開放。
我自然也是第一時間拿到了GPT-4.5的體驗資格。
目前識圖、搜索、畫布啥的都支持,但是4o的語音、視頻、共享屏幕啥的都沒有,算是個退步。
而且有BUG,就是在問一些史實性的問題的時候,我明明沒開搜索,非要給我強制開搜索去回答,就非常的離譜。
相比于4o,他們所說的情商能力,確實有了一些進步。
比如這個問題:朋友總是爽約,我想發(fā)短信表達憤怒但又不想絕交,我該怎么回復(fù)他。
如果是4o的回答,就會很der比,一股子沒腦子沒情商的人機味。
GPT-4.5在這方面就好的多。
然后我又問了一個小小的邏輯問題,GPT-4o能理解。
GPT-4.5直接懵逼了,一直在理解情緒,這情商高的把智商干沒了?
我roll了5次,沒一次對的。
這事也是挺抽象的。。。
然后就是寫作能力了,我自己測了幾個常用的寫作故事case,感覺...好像也不是那么盡人意,而且超級慢,慢的我想吐,感覺回到了GPT-4的年代了,一個字一個字的往外面蹦跶。
我都不說跟Claude 3.7和Grok3還有R1比,我真的覺得,還不如前段時間迭代后的GPT4o寫的好,真的稀碎。。。
坦率的講,對OpenAI期待有多大,失望就有多大。
就現(xiàn)在的狀況,我覺得你永遠可以相信DeepSeek。
但是永遠可以對OpenAI保持低預(yù)期。
疲態(tài)盡顯。
奧特曼也說,這是他們最后一個基座模型了。
未來GPT-5是整合了o3的模型,也是混合模型了。
希望下次還能看到OpenAI覺醒,或者……
AI就是一段漫長的長跑。
你但凡慢一點,或者停下,身邊的競爭者,就會呼嘯而過。
要真有實力和誠意,用戶自然買單。
要是只會營銷和擺譜,必定會被淘汰。
這,就是AI圈的生存法則。
祝好。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.