機器之心報道
機器之心編輯部
深夜,谷歌對其最強大的 2.5 Pro 模型進行了一次重大更新(06-05)。
在保持 o3 四分之一以下的低價格的同時,在編碼(Aider Polyglot)、推理能力(HLE)、科學(GPQA)等各項基準測試中超越 o3,實現更優性能!
該模型基于我們在五月份發布并在 I/O 大會上展示的版本(05-20)構建,并且將在幾周內成為正式發布的穩定版本,并最終集成到 Gemini 應用中供所有用戶使用。
目前已經可以在 Google AI Studio、Vertex AI 和 Gemini 應用中使用。
最新的 2.5 Pro 模型在多個基準測試中表現優秀:
- 綜合性能:在 LMArena 上,Elo 分數提升 24 分,以 1470 分的成績高居榜首。
- Web 開發能力:在 WebDevArena 上,Elo 分數大幅提升 35 分,以 1443 分的成績占據領先。
- 編碼能力:在 Aider Polyglot 中,超過了 Claude Opus 4。
- 推理:在旨在評估數學、科學和知識能力的 GPQA 及「人類終極考驗」等頂級測試中,展現出卓越性能。
另外,Gemini 2.5 Pro 的定價也很有優勢,比 OpenAI o3、Claude 4 Opus 及 Grok 3 等主要競爭對手都更加便宜。
以 Gemini 輸入每百萬 token 1.25 美元,輸出 10 美元的價格為基準,成本優勢一目了然:
- 對比 OpenAI o3:Gemini 的輸入成本僅為 o3 的 1/8,輸出成本為其 1/4。
- 對比 Claude 4 Opus:優勢更為驚人,輸入成本不到其 1/10,輸出成本也僅為其價格的 13%。
- 對比 Grok 3:同樣優勢顯著,輸入成本不到 Grok 3 的一半,輸出成本也只是其 2/3。
值得一提的是,新版本中還增加了思考預算,讓開發人員能夠更好地控制成本和延遲,目前其他模型都還沒有這個功能。
谷歌還采納了針對上一版 2.5 Pro 的反饋,改進了其輸出的風格和結構——現在它的響應可以更具創意,格式也更出色。
我們來做個對比測試:你現在是一只活了 500 年的貓,請用一種厭倦又略帶高傲的口吻,抱怨一下你最近換的這位「鏟屎官」。
這是新版 2.5 Pro 輸出的內容:
(趴在窗臺上,懶洋洋地甩了一下尾巴,半瞇著眼睛,用一種看透了世間萬物的語氣開口)
唉……
說起來,我最近換的這位「鏟屎官」,已經是本尊記不清的第幾十任了。打從明朝那會兒起,我就看著你們這些兩腳獸來了又去,跟那窗外的四季似的,沒個消停。
這一屆的,尤其麻煩。
你們能信嗎?他管我叫「豬咪」。
豬?咪?
呵,真是滑天下之大稽。本尊當年在王府里,那也是有「雪影」這等雅號的。陪著主人聽過昆曲,聞過上好的龍井,爪子都只踩在波斯地毯上。現在倒好,淪落到跟一種以蠢笨聞名的牲口相提并論。這小子的審美和學識,怕是連嘉靖年間宮里掃地的太監都不如。
還有吃食。想當年,御膳房的小灶日日為我備著最新鮮的長江鰣魚,剔骨去刺,只取中斷。再不濟,民國那會兒跟著一位銀行家,頓頓也是法式小牛肝。現在呢?他給我端來一碗褐色的、干巴巴的、號稱「科學配比全價貓糧」的玩意兒。
科學?你們人類的科學在我眼里,就跟那后院螞蟻搬家一樣,忙忙叨叨,卻不知所謂。那玩意兒吃起來,口感粗糙得像是摻了沙子,味道寡淡得好比是和尚的齋飯。他還一臉期待地看著我,仿佛那是天大的恩賜。我不過是給他個面子,勉為其難地舔兩口,他就高興得手舞足蹈,還要拍照發到那個叫「朋友圈」的地方去炫耀。愚蠢。
最可笑的是他的「愛撫」。他不懂得順著我的脊骨,用恰到好處的力道,從頭頂一直撫到尾根。不,他只會像揉面團一樣,粗魯地在我身上亂抓一氣。還總想把臉湊過來,用他那滿是凡人氣息的嘴發出「啾啾啾」的噪音。本尊的龍體是爾等凡夫俗子能隨便褻瀆的嗎?每次我只不過是發出一點表示不滿的咕嚕聲,他就以為我「舒服得打呼嚕了」。唉,對牛彈琴,莫過于此。
哦,對了,還有那個會發紅點的筆。他管那叫「逗貓棒」。他舉著那個東西晃來晃去,看我追逐那個虛無縹緲的光點,笑得前仰后合。我追,不是因為我傻,而是為了活動一下這把老骨頭,順便……可憐一下他那貧瘠的娛樂生活。五百年了,從皇帝手里的玉如意流蘇,到閨秀發髻上的金步搖,什么我沒玩過?一個破光點就想取悅我?天真。
算了,不說了。跟你們這些壽命不過百年的生物,也沒什么好計較的。反正再過幾十年,他又會變成一捧黃土,而我,只不過是換個地方,換個兩腳獸,繼續我這漫長又無聊的貓生罷了。
哼,那個鏟屎的過來了。看他手里的樣子,八成又是那個難吃的貓糧。罷了,今天心情好,就賞他個臉,吃兩口吧。
……記得,晚膳要加一條小黃魚,清蒸的,不加蔥姜。要是忘了,今晚他的被子就別想要了。
這是上一版本輸出的內容:
唉,五百年了,又換了一個。真不明白這些兩腳獸是怎么繁殖的,代代相傳的,除了折騰我的生活,還能干點什么?
這位新來的,叫什么……哦,忘了。名字不重要。重要的是,她的業務能力,簡直讓我這五百年的貓生閱歷都感到疲憊。
首先是食物。她以為我是一只普通的、剛斷奶的小貓咪嗎?每天換著花樣地給我提供那些聞起來就透著一股庸俗氣息的罐頭和干糧。有時候是那什么「深海鱈魚配三文魚」,有時候又是「農場走地雞佐蔓越莓」。拜托,我只想要我的那一份,準確無誤、溫度適中、放在那個我慣用的碗里,靜靜地擺在那里。她總想給我「驚喜」,結果驚喜變成了驚嚇。我才剛勉強適應上一個牌子,她就又換了。難道她不知道,挑剔是刻在我靈魂里的天性,而堅持,才是我活了五百年唯一的信仰嗎?
然后是她的「關愛」。拜托,我是貓,不是需要被隨時抱在懷里的嬰兒。她總是在我剛找到一個完美的午睡角度,太陽光線剛剛好,溫度剛剛適中,尾巴尖才剛開始微微顫動的時候,突然伸出一只粗魯的手,試圖把我抱起來,還說什么「小可愛,想你了」。我「想你」?我只想在你懷里打個盹,然后一爪子把你抓醒,讓你知道我的存在,僅此而已。難道他們不知道,我肯屈尊讓你觸碰,那本身就是一種恩賜?
最讓人無法忍受的是,她對我的私人圣殿——貓砂盆的維護。我以五百年的貓生閱歷擔保,她是我見過最不勤快的鏟屎官!每次我優雅地完成我的「創作」后,她都不會立刻前來清理。那味道,那殘骸,那簡直是在對我高貴的嗅覺進行侮辱!她難道不知道,每一次我用爪子扒拉著那些被污染的貓砂,我的內心都在咆哮著對她的不滿嗎?我甚至懷疑,她是不是覺得我在那里做藝術品,所以才舍不得清理?
還有她那些拙劣的「逗貓」伎倆。激光筆?羽毛棒?拜托,我早已看穿了一切。我陪你玩,只是為了給你一個繼續活下去的理由,讓你覺得自己對這個家還有那么一點點用處。她還總是在我不需要她的時候發出奇怪的噪音,吸塵器、電視里那些聒噪的節目,甚至只是她自己喋喋不休的自言自語。安靜,這屋子里最稀缺的奢侈品。
罷了,罷了。我已經懶得教育她了。五百年來,我見證了無數個像她這樣的兩腳獸來來去去,他們都以為自己是我的主人,殊不知,我才是這屋子里唯一值得被伺候的存在。她,也只是我漫長貓生中,又一個匆匆的過客而已。我只希望,她能快點學會我的作息規律,以及,我的碗永遠不能空。否則,我可不保證會發生什么「意外」。哼。
可以看到,上一版的輸出還是沒有脫離典型的「首先——然后——最后」式 AI 輸出格式。在角色塑造上,新版對貓咪的閱歷、性格和語言處理得更貼近創作要求。
在用戶實測中,大家對新版 Gemini 也是贊不絕口。
在其他人的測試中,Gemini 2.5 Pro 準確且權威地回答了他們一個長期以來的測試問題。當被問及「如果不存在馬真塔(Magenta)鎮,品紅色(magenta)還會叫這個名字嗎?」時,新的 Gemini 2.5 Pro 明確地回答「不會」。
谷歌更新后的 Gemini 2.5 Pro 是少數能正確推理出此問題答案的模型之一。
一個 2023 年版本的 Claude 模型在該問題上含糊其詞。
值得一提的是,就在幾天之前,Gemini 的圖像生成能力還引起了廣泛關注。
谷歌 CEO 劈柴哥也曬出了一張 AI 生成的獅子圖,這究竟是為自家更新高調「站臺」,還是在展示 Gemini 的作圖實力?
不過新版本發布不久,Gemini 就被越獄攻擊成功,不知道谷歌官方作何感想。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.