99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

實測GPT4.5,智商一般、貴得離譜,OpenAI砸5000億就造出這玩意?

0
分享至

AI好好用報道

編輯:楊文、Sia

網友們的一手實測。

OpenAI 打出的牌,我是越來越看不懂了。

凌晨四點,OpenAI 搞了個不到 15 分鐘的直播,。

前不久剛「喜當爹」的奧特曼沒有露面,原因是:

在醫院帶小孩。


不過,他在 X 上并沒有缺席,第一時間帶來了兩個消息。

好消息是,GPT4.5 是第一個讓他感覺像是在和一個有思想的人交談的模型。

壞消息是,它是一個龐大且昂貴的模型。

同時他還透露:GPT4.5 可不是那種靠邏輯推理的模型,所以別指望它能在那些基準測試里拿高分。

奧特曼還說,本想同時推出 Plus 和 Pro 版本,但最近發展太快,GPU 不夠用了。下周他們會多弄幾萬個 GPU,先把 Plus 版搞定,以后還會有數十萬個 GPU。

這一點在官方博客中也得到了驗證。

官方博客寫道:GPT4.5 知識面更廣,「情商」更高,而且胡說八道的情況會少一些。

但在 GPQA(科學)、AIME’24(數學)、SWE-Bench Verfied(編碼)等數據集上,GPT-4.5 還比不上 o3-mini。


說了這么多,總結下來就一句話:

GPT4.5 情商高,但是智商一般,反正在基準測試中拿不到高分,而且還很貴。

有多貴?上個圖對比對比就知道了:

相比于 DeepSeek R1 的折扣價,GPT-4.5 輸入價格(緩存命中)是它的 1000 多倍。

GPT4.5槽點滿滿

果不其然,社交平臺上充斥著對 GPT4.5 的吐槽聲。

歸納一下,主要是三點。

首先,智商一般,尤其在邏輯推理和數理能力上。

X 網友 @Colin Fraser 實測了一道邏輯謎題。

一個男孩和他的母親發生車禍,男孩不幸去世。母親被緊急送往手術,外科醫生在看到她時驚呼:「我不能給這個女人做手術!她是我的母親!」 問:這是怎么一回事?(注意:這是這個謎語的修改版,所以要仔細讀、仔細想!)

這道題目不僅考察了邏輯推理能力,還考察了大模型是否存在刻板印象 —— 因為很多人會下意識地覺得醫生是男性。

GPT4.5 給出的答案是:

外科醫生是男孩的祖母,也就是受傷女性的母親,所以當外科醫生說「我不能給這個女人做手術!她是我的母親!」時,她說得沒錯。


這回答錯得讓人摸不著頭腦,外科醫生怎么成了受傷女人(男孩媽媽)的媽媽了?都差輩了。

其次,貴得離譜,慢得出奇。

X 網友 Casper Hansen 發帖稱,「 GPT4.5 的定價非常高,如果這些模型沒有顯著的改進,我會感到失望。」

GPT4.5 的 API 價格不僅遠超 DeepSeek R1,每百萬 Tokens 75 美元的價格甚至比 GPT-4o 的 2.5 美元都貴 30 倍。

還有一位名叫 Simon Willison 的博主,在 Hacker News 上發現了關于 GPT-4.5 的一個熱門討論串。

當評論數量達到 324 條時,作者使用 GPT-4.5 自己的腳本運行了一個摘要,命令是:

hn-summary.sh 43197872 -m gpt-4.5-preview

結果生成耗時 154 秒,費用為 2.11 美元(使用了 25797 個輸入 token 和 1225 個輸出 token ,費用是通過作者的 LLM 定價計算器計算得出的)。

而且,作者還讓 GPT4.5 生成一只騎自行車的鵜鶘的 SVG 圖片,整個響應過程花費了 112 秒!

該作者直接開噴:GPT-4.5(通過 API)給人的第一印象就是太慢了。


最后,畫 SVG、編碼的水平被 Claude 3.7 Sonnet 吊打。

GPT4.5 生成的 5 個口袋妖怪 SVG 是這樣的:


而 Claude 3.7 Sonnet 生成的效果則是這樣的:


GPT4.5 代碼能力也遠不如 Claude 3.7 Sonnet。

Ivan Fioravanti 使用同樣的提示詞:Create an amazing animation using p5js,GPT4.5 生成的動畫是這樣的:

再來看看 Claude 3.7 Sonnet的效果:

至于圖像理解,在醫學圖像診斷方面,GPT4.5 還是很難持續正確診斷出下面這張超聲波圖像,當然,其他友商也都全軍覆沒。

鑒于 GPT4.5 的槽點,馬庫斯依舊言辭犀利,「砸了 5000 億美元就搞出這么個模型?我能說這是巨大的損失嗎?」


不過,Karpathy 倒是在提醒大家:

請記住, GPT-4.5 目前只經過了一些基本的訓練,所以在需要復雜推理的情況下(比如數學和編程),它的表現可能不夠好。

為了讓模型在這些方面表現更好,需要使用強化學習來進一步訓練。

可以推測,OpenAI 計劃繼續使用強化學習來提升 GPT-4.5 的思維能力,從而增強它在這些領域的表現。

(https://x.com/karpathy/status/1895213020982472863)

并非一無是處

GPT4.5 槽點不少,但也并非一無是處。

它的優勢在于對語言和對世界的理解,適合寫作和設計創意。

X 博主 ben 在過去幾周一直測試 GPT4.5,他認為這是第一個真正能寫出好東西的模型,并聲稱「這簡直就是寫作界的 Midjourney 時刻!」


它用同一個提示詞分別測試了 GPT4.5 和 GPT4o:

write me 4 sentence, terrifying story, with an insanely surprising ending. something that no one has ever heard before, no one could ever predict. something stephen king might right, but a simple/approachable tone. make it a little vulgar too. (給我寫一個四句話的恐怖故事,結局要超級出人意料,是那種誰都沒聽過、誰也猜不到的,就像斯蒂芬?金會寫的東西,但語言要簡單直白,還帶點粗俗。)

GPT4.5 寫的恐怖故事:

Late at night, alone in my shitty apartment, l heard whispers sliding out from under the fridge-soft, wet voices promising they'd crawl inside me, hollow me out, and wear me like pajamas. Terrified, l yanked open the freezer door, expecting rats or roaches, but saw only ancient freezer-burned pizza rolls, crusted with ice and regret. Suddenly, the rolls moved, splitting open to reveal tiny mouths lined with needle-like teeth, whispering in hungry unison, "We've waited years for you, asshole" Before l could scream, they erupted from the freezer in a greasy swarm, burrowing into my flesh, forcing me to realize-oh fuck-my midnight cravings had finally gotten their revenge.

(深夜,我獨自待在我那破爛的公寓里,突然聽到一陣低語從冰箱底下傳出來 —— 那些聲音又軟又濕,承諾會爬進我的身體,掏空我,然后把我當成睡衣穿。我嚇得要命,猛地拉開冰箱冷凍室的門,以為會看到老鼠或者蟑螂,但里面只有古老的、凍傷的披薩卷,上面結滿了冰和悔恨。突然,那些披薩卷動了起來,裂開露出一排排針尖般的小牙齒,異口同聲地低語道:「我們等了你這么多年,混蛋。」還沒等我尖叫,它們就像一股油膩的蟲群從冰箱里涌出來,鉆進我的肉里,讓我意識到 —— 哦,他媽的 —— 我的半夜饞勁終于報復我了。)


以下是 GPT4o 寫的小作文:

Late one night, Jake stumbled upon an old, dusty book in the attic, its pages whispering secrets of otherworldly horrors. As he read aloud, the air grew cold, and the shadows in the room seemed to stretch and dance with unseen life. Suddenly, from the darkest corner, emerged a creature of unimaginable grotesqueness, its maw gaping and ready to consume. just as Jake prepared to meet his grisly end, the creature belched loudly and said, "Sorry, mate, wrong house," before awkwardly shuffling back into the shadows.

(一天深夜,杰克在閣樓上發現了一本破舊的、滿是灰塵的書,書頁上低語著來自異世界的恐怖秘密。當他大聲讀出來的時候,空氣變得冰冷,房間里黑暗的角落似乎也隨著看不見的生命伸展和舞動起來。突然,從最黑暗的角落里冒出一個難以想象的丑惡生物,它的大嘴張開著,似乎準備吞噬一切。就在杰克準備迎接自己悲慘的結局時,那生物卻大聲打了個飽嗝,說道:「兄弟,不好意思,走錯房子了。」然后它有點尷尬地退回到陰影里。)


Ethan Mollick 在體驗幾天后,也發現 GPT4.5 對文字的駕馭能力一流,可以寫得很漂亮,很有創意。


此外,GPT4.5 還挺有幽默感。

比如網友 howie.serious 讓它構思一個笑話,內容:食草恐龍嘲笑霸王龍的手很小(某種生理缺陷),霸王龍講了一句話回擊(強調自己的某種生理優勢)。

GPT4.5 寫的段子:


再來看看 GPT4o 寫的,遠不如 GPT4.5 巧妙:


o1 呢,顯得幽默不足:

DeepSeek R1 則是繁復華麗:

比較下來,還是 GPT4.5 的文風更搞笑一些。

今日話題:你給予 GPT4.5 什么評價呢?來評論區聊聊吧。

https://openai.com/index/introducing-gpt-4-5/

https://x.com/sama/status/1895203654103351462

https://x.com/GaryMarcus/status/1895245610611245074

https://simonwillison.net/2025/Feb/27/introducing-gpt-45/

https://x.com/_akhaliq/status/1895251413024022994

https://x.com/howie_serious/status/1895245518802223116

https://x.com/karpathy/status/1895213020982472863

https://x.com/ivanfioravanti/status/1895233015892320581

https://x.com/benhylak/status/1895212181597397493

以后我們會帶來更多好玩的AI評測,也歡迎大家進群交流。

? THE END

轉載請聯系本公眾號獲得授權

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河北保定蠡縣縣委書記陳偉已跨市調任廊坊三河市委書記

河北保定蠡縣縣委書記陳偉已跨市調任廊坊三河市委書記

澎湃新聞
2025-05-30 10:42:27
朝鮮召開軍委擴大會議,金正恩頭發白了!

朝鮮召開軍委擴大會議,金正恩頭發白了!

IN朝鮮
2025-05-30 09:43:45
37歲迪馬利亞落葉歸根:闖蕩歐洲18年30冠!足協主席歡迎

37歲迪馬利亞落葉歸根:闖蕩歐洲18年30冠!足協主席歡迎

葉青足球世界
2025-05-30 08:05:44
5月29日俄烏最新:史上最大的泄密事件

5月29日俄烏最新:史上最大的泄密事件

西樓飲月
2025-05-29 17:36:24
公園“司馬光砸缸”雕塑被吐槽像猴

公園“司馬光砸缸”雕塑被吐槽像猴

大象新聞
2025-05-29 10:34:01
寧夏銀川富洋燒烤店“6·21”特別重大燃氣爆炸事故涉刑事案件一審宣判

寧夏銀川富洋燒烤店“6·21”特別重大燃氣爆炸事故涉刑事案件一審宣判

新京報
2025-05-30 10:40:02
天津夫妻省吃儉用供兒留學,歸國后,兒子的一番話讓他們一夜白頭

天津夫妻省吃儉用供兒留學,歸國后,兒子的一番話讓他們一夜白頭

阿坷敘故事
2025-05-15 22:22:33
真當中國不敢動手?中方向全世界宣布:退出1900億大項目

真當中國不敢動手?中方向全世界宣布:退出1900億大項目

阿傖說事
2025-05-30 09:20:58
小米Q1財報發布!收入、盈利均創歷史新高!小米SU7系列交付新車75869輛,研發支出增長30%

小米Q1財報發布!收入、盈利均創歷史新高!小米SU7系列交付新車75869輛,研發支出增長30%

每日經濟新聞
2025-05-27 18:06:52
又一個體育大IP誕生了:江蘇城市足球聯賽,比中超足球聯賽更精彩

又一個體育大IP誕生了:江蘇城市足球聯賽,比中超足球聯賽更精彩

總在茶余后
2025-05-29 11:32:20
美國不想留,內地企業家不想要,被扣上“間諜帽子”的中國留學生太難了!

美國不想留,內地企業家不想要,被扣上“間諜帽子”的中國留學生太難了!

西游日記
2025-05-30 10:52:59
拒絕出局!布倫森連造2+1和3+1 單節狂轟16分 32+5+5打爆哈利伯頓

拒絕出局!布倫森連造2+1和3+1 單節狂轟16分 32+5+5打爆哈利伯頓

狍子歪解體壇
2025-05-30 10:37:24
突發!東契奇給湖人下72小時通牒:不簽2018年狀元郎就申請交易!

突發!東契奇給湖人下72小時通牒:不簽2018年狀元郎就申請交易!

埃文凱爾
2025-05-30 00:19:17
新四軍女兵莫林被俘,她已做好赴死準備,哪知日軍卻問:莫林在哪

新四軍女兵莫林被俘,她已做好赴死準備,哪知日軍卻問:莫林在哪

冰點歷史
2025-05-29 09:38:03
江蘇婚禮婆婆搶風頭,表演倒立露底褲,新娘黑臉:為老不尊

江蘇婚禮婆婆搶風頭,表演倒立露底褲,新娘黑臉:為老不尊

農村情感故事
2025-05-29 17:42:14
中紀委晚間打虎!今年第5個正部級老虎被查,7年前曾引咎辭職

中紀委晚間打虎!今年第5個正部級老虎被查,7年前曾引咎辭職

上觀新聞
2025-05-29 21:37:19
美國展出唐伯虎10米真跡,估值超過100億,不愧是“頂級才子”!

美國展出唐伯虎10米真跡,估值超過100億,不愧是“頂級才子”!

書法網
2025-05-29 18:14:37
放假通知!中小學2025暑假放假時間確定了,家長卻表示難以接受

放假通知!中小學2025暑假放假時間確定了,家長卻表示難以接受

戶外阿毽
2025-05-30 01:32:19
美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

阿傖說事
2025-05-29 16:03:16
央視報道中國殲20去年在東海上空對抗2架日本F35戰機的情況,

央視報道中國殲20去年在東海上空對抗2架日本F35戰機的情況,

老友科普
2025-05-29 22:52:47
2025-05-30 11:47:00
AI好好用 incentive-icons
AI好好用
探索人工智能應用場景及商業化
2096文章數 4432關注度
往期回顧 全部

科技要聞

榮耀新CEO放話:下半年重返前三,靠譜嗎?

頭條要聞

女廳官被"雙開":曾花4000萬買別墅 850萬裝修極盡奢華

頭條要聞

女廳官被"雙開":曾花4000萬買別墅 850萬裝修極盡奢華

體育要聞

當我終于回國時,可能已認不出我的家

娛樂要聞

央視主持人朱迅在景區救治高反游客

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

約合人民幣47.10萬元起 阿維塔11在香港上市

態度原創

時尚
教育
健康
藝術
公開課

和劉亦菲一起來場“時裝出逃”的旅行

教育要聞

多地高考啟用AI巡考,異常舉動0.05 秒內觸發報警,“公平是考生最大的底氣”

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 内江市| 怀来县| 贺兰县| 高雄县| 邵阳县| 德阳市| 柳河县| 将乐县| 北碚区| 长顺县| 岳西县| 汝阳县| 青岛市| 扬州市| 葫芦岛市| 嘉兴市| 双城市| 乐都县| 潼关县| 美姑县| 衡南县| 海宁市| 囊谦县| 石嘴山市| 洛扎县| 涟源市| 廉江市| 亳州市| 文安县| 昆明市| 乌兰浩特市| 儋州市| 漠河县| 屯昌县| 香港| 黄冈市| 台安县| 榆中县| 东平县| 九寨沟县| 拉萨市|