99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩在身后了

0
分享至


智東西
作者 王涵
編輯 漠影

智東西6月6日消息,谷歌今日突襲推出Gemini 2.5 pro的重磅更新版本Gemini 2.5 Pro Preview 06-05 Thinking,該版本在推理能力、科學(xué)以及編程能力測試中超越OpenAI o3、DeepSeek R1和Claude Opus 4,其中編程能力更是領(lǐng)跑Aider Polyglot等高難度編程基準測試。

價格方面,06-05版本沿用了先前版本的價格策略,即每百萬token輸入(無緩存)1.25美元(約合人民幣9元),輸出10美元(約合人民幣72元)。


谷歌CEO桑達爾·皮查伊(Sundar Pichai)在海外社交媒體X上親自官宣:“我們最新的Gemini 2.5 Pro更新現(xiàn)已發(fā)布預(yù)覽版……我們聽取了您的反饋,并對回答的風(fēng)格和結(jié)構(gòu)進行了改進。您可以在Al Studio、Vertex Al平臺和Gemini app中進行試用。正式版即將推出!”


一、性能全面屠榜,Gemini以1443分登頂WebDevArena榜單

在5月年度I/O開發(fā)者大會上,谷歌宣布已對Gemini 2.5 Pro進行靜默升級。谷歌DeepMind首席執(zhí)行官戴米斯·哈薩比斯(Demis Hassabis)當(dāng)時評價I/O版本是公司迄今最佳編程模型。

而此次名為“Gemini 2.5 Pro Preview 06-05 Thinking”的新預(yù)覽版在05-06版本之上進行的更新,測試表現(xiàn)更優(yōu),谷歌在博客中評價該版本為“我們迄今為止最有智慧的模型”。谷歌還透露說,新版本“具備企業(yè)級應(yīng)用成熟度”,將于兩周后作為穩(wěn)定版面世。

Gemini 2.5 Pro Preview 06-05 Thinking在基準測試中全面屠榜,文本、視覺、網(wǎng)頁開發(fā)、編程、數(shù)學(xué)、創(chuàng)意、多輪對話、指令跟隨及長查詢類別等能力上均拔得頭籌。


▲綜合榜單(來源:LMArena)

有網(wǎng)友在用Emoji表情標出了06-05版本的表現(xiàn)對比,可以看出其在測試數(shù)學(xué)能力的AIME 2025、測試代碼生成的LiveCodeBench上并未超過o3和o4-mini,視覺推理的MMMU榜單上也未超過o3,仍有進步空間。

且在價格上,06-05版本與榜單中的其他模型相比較為實惠,但仍遠高于DeepSeek R1。


從細分榜單來看,LMArena文本基準測試中,06-05版本的Elo分數(shù)較05-06版提升24分,以1470分保持榜首。WebDevArena測試中,其Elo分數(shù)以1443分領(lǐng)先,較此前提升了35分。06-05版本也領(lǐng)跑Aider Polyglot等高難度編程基準測試,超越DeepSeek R1等一眾大模型。


▲WebDevArena榜單(來源:LMArena)

在HLE(Humanity’s Last Exam,人類終極測試)中,06-05版本的成績?yōu)?1.6%,幾乎是Claude 4 Opus的2倍,GPQA測試的成績也同樣占據(jù)榜首。這兩個測試是評估數(shù)學(xué)、科學(xué)、知識及推理能力的超高難度測試,06-05版本的亮眼成績足以說明它的實力。


▲HLE榜單(來源:Humanity’s Last Exam官網(wǎng))

即刻起,開發(fā)者們可以從谷歌AI Studio和Vertex AI平臺接入Gemini API體驗最新版本,谷歌還在這兩個平臺上新增了“思考預(yù)算”功能,優(yōu)化成本與延遲控制。同時,新版本也將在Gemini應(yīng)用上逐步推出。

二、Gemini新版被玩出花了

06-05版本一經(jīng)推出就有許多開發(fā)者和用戶進行體驗嘗鮮。

首先是圖像生成方面,皮查伊自己用Gemini生成了一張獅子的特寫照片,圖片十分生動:


卡通動畫風(fēng)也是不在話下:


編程方面:Android studio提示Gemini 2.5 Pro Preview 06-05 Thinking創(chuàng)建一個用戶個人資料圖片,要求包含:Android Jetpack Compose 代碼,能夠生成類似該用戶個人資料圖片的代碼以及導(dǎo)入語句、Material3和代碼文檔,結(jié)果十分驚艷:


有網(wǎng)友要求06-05版本編寫一個Python程序,模擬隨機車流量單行道上的交通信號燈運作過程:


還有網(wǎng)友要求06-05版本編寫一個“3D球體”代碼來展示它的能力,結(jié)果它僅憑一句指令就生成了這個交互式粒子系統(tǒng),讓網(wǎng)友直呼“這不可能是真的!”


結(jié)語:大模型進入快迭代時代

此前,DeepSeek和OpenAI的推理模型曾主導(dǎo)行業(yè)關(guān)注焦點,智東西不久之前曾報道DeepSeek-R1-0528開源,其性能接近OpenAI在4月中旬發(fā)布的o4 mini和o3模型高版本。谷歌此番更新更是迎頭趕上,全面屠榜,基準測試結(jié)果超越DeepSeek R1和OpenAI的o3、o3-mini和o4-mini。

Gemini 2.5 Pro初代版本于3月發(fā)布時,Venture Beat的馬特·馬歇爾(Matt Marshall)就稱其為“最被低估的智能模型”。這一評價很快得到驗證,憑借2.5 Pro及其兩個升級版本的快速迭代,谷歌不僅大幅提升了模型的多模態(tài)理解、長文本推理和代碼生成能力,更在大語言模型性能基準測試中多次超越競品。

如今大模型的迭代周期越來越短,基準測試榜單的頭把交椅也時常易主。AI較量的白熱化提醒我們,大模型從一開始的大爆發(fā)時代已經(jīng)進入快迭代時代。

來源:谷歌Blog、X、LMArena、Humanity’s Last Exam以及Venture Beat

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
剛開播就危機?《長安的荔枝》女主被爆高考移民,慘遭央視刪除

剛開播就危機?《長安的荔枝》女主被爆高考移民,慘遭央視刪除

頭號劇委會
2025-06-09 22:20:03
C羅進球封王!這支葡萄牙讓人想起了2022年的阿根廷

C羅進球封王!這支葡萄牙讓人想起了2022年的阿根廷

澎湃新聞
2025-06-09 11:14:31
小別勝新婚是什么體驗?網(wǎng)友:成年人的世界好污啊

小別勝新婚是什么體驗?網(wǎng)友:成年人的世界好污啊

解讀熱點事件
2025-06-05 00:10:03
北京實施專項行動擴大時尚消費

北京實施專項行動擴大時尚消費

環(huán)球網(wǎng)資訊
2025-06-09 18:16:09
人生最大的失敗:不是貧窮,而是60歲后,遇到了這三件事

人生最大的失敗:不是貧窮,而是60歲后,遇到了這三件事

文雅筆墨
2025-06-08 07:30:27
賴清德可以死心了!關(guān)鍵時刻,中美傳出重要消息,特朗普對華交底

賴清德可以死心了!關(guān)鍵時刻,中美傳出重要消息,特朗普對華交底

雷霆亮劍
2025-06-09 18:58:24
巨額債務(wù)壓垮南京世茂!11棟洋房遭拍賣

巨額債務(wù)壓垮南京世茂!11棟洋房遭拍賣

地產(chǎn)銳評
2025-06-09 18:47:40
高考救老人誤考英語,1個月后老人兒子上門,送上北大錄取通知書

高考救老人誤考英語,1個月后老人兒子上門,送上北大錄取通知書

紅豆講堂
2025-06-04 18:30:12
韋東奕旋風(fēng)向外圍擴散,北大小心翼翼的回應(yīng)耐人尋味|封面評論

韋東奕旋風(fēng)向外圍擴散,北大小心翼翼的回應(yīng)耐人尋味|封面評論

封面新聞
2025-06-09 16:31:03
上海明早降水將再度明顯!今年第1號臺風(fēng)或于周三前后生成,本周后期降水時間強度或調(diào)整

上海明早降水將再度明顯!今年第1號臺風(fēng)或于周三前后生成,本周后期降水時間強度或調(diào)整

東方網(wǎng)
2025-06-09 19:33:39
高考最后一天,惡心的一幕還是出現(xiàn)了,網(wǎng)友不淡定了

高考最后一天,惡心的一幕還是出現(xiàn)了,網(wǎng)友不淡定了

鋭娛之樂
2025-06-09 15:11:24
國足官方確認主場戰(zhàn)巴林轉(zhuǎn)播平臺:2家轉(zhuǎn)播機構(gòu)直播,央視仍無緣

國足官方確認主場戰(zhàn)巴林轉(zhuǎn)播平臺:2家轉(zhuǎn)播機構(gòu)直播,央視仍無緣

雷速體育
2025-06-09 13:11:11
東莞往事:我在內(nèi)衣廠上班,天天“摸”胸罩,對女人沒了欲望

東莞往事:我在內(nèi)衣廠上班,天天“摸”胸罩,對女人沒了欲望

三驚胖爺
2025-03-09 09:46:01
安徽毆打游客的飯店老板被拘留 賠9000元 和稀泥的派出所長被免職

安徽毆打游客的飯店老板被拘留 賠9000元 和稀泥的派出所長被免職

水晶的視界
2025-06-09 04:33:14
我胸口疼了8年,每次檢查都正常,直到換了科室才終于查明原因

我胸口疼了8年,每次檢查都正常,直到換了科室才終于查明原因

林林故事揭秘
2025-06-03 14:37:24
北大正面回應(yīng):韋東奕每年都體檢,牙科已會診,派生活助理無先例

北大正面回應(yīng):韋東奕每年都體檢,牙科已會診,派生活助理無先例

育學(xué)筆談
2025-06-09 14:55:59
從沒有一考定終身:30年3000位“高考狀元”無一人成為業(yè)界領(lǐng)袖

從沒有一考定終身:30年3000位“高考狀元”無一人成為業(yè)界領(lǐng)袖

尚曦讀史
2025-06-08 22:37:07
C羅:我將留在利雅得勝利,明年世界杯葡萄牙可以和任何強隊競爭

C羅:我將留在利雅得勝利,明年世界杯葡萄牙可以和任何強隊競爭

直播吧
2025-06-09 08:22:11
22歲飛翼1年豪奪5冠:戲耍亞馬爾,決賽MVP!金球級表演

22歲飛翼1年豪奪5冠:戲耍亞馬爾,決賽MVP!金球級表演

葉青足球世界
2025-06-09 09:08:36
范志毅愛女為27歲申花門神慶生 幸福坐其大腿上 兩人已訂婚10個月

范志毅愛女為27歲申花門神慶生 幸福坐其大腿上 兩人已訂婚10個月

我愛英超
2025-06-07 21:57:47
2025-06-10 00:03:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
9981文章數(shù) 116773關(guān)注度
往期回顧 全部

數(shù)碼要聞

Waveshare 推兩款開發(fā)板:ESP32、自帶圓形屏,可用于智能家居

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰(zhàn)斗

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰(zhàn)斗

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經(jīng)要聞

重磅級民生文件公布 如何改變你我生活?

科技要聞

今年618平臺集體想通了,主打一個簡單粗暴

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態(tài)度原創(chuàng)

本地
時尚
教育
公開課
軍事航空

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

今年夏天最流行的裙子,配這4雙鞋才好看!

教育要聞

走進上海一年花費30萬的私立學(xué)校

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

烏方稱俄發(fā)動沖突以來最大空襲

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 苏尼特右旗| 祁连县| 柞水县| 桂东县| 青阳县| 平定县| 麻城市| 凤庆县| 溧水县| 瑞安市| 本溪| 民乐县| 民丰县| 莱阳市| 上杭县| 安顺市| 九龙县| 东台市| 宜丰县| 陈巴尔虎旗| 阳西县| 五家渠市| 乌苏市| 永宁县| 中山市| 长武县| 长治县| 安远县| 靖宇县| 芜湖县| 清丰县| 大关县| 淮北市| 怀仁县| 肇庆市| 新田县| 郑州市| 南靖县| 石河子市| 阿克苏市| 河池市|