99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩在身后了

0
分享至


智東西
作者 王涵
編輯 漠影

智東西6月6日消息,谷歌今日突襲推出Gemini 2.5 pro的重磅更新版本Gemini 2.5 Pro Preview 06-05 Thinking,該版本在推理能力、科學以及編程能力測試中超越OpenAI o3、DeepSeek R1和Claude Opus 4,其中編程能力更是領跑Aider Polyglot等高難度編程基準測試。

價格方面,06-05版本沿用了先前版本的價格策略,即每百萬token輸入(無緩存)1.25美元(約合人民幣9元),輸出10美元(約合人民幣72元)。


谷歌CEO桑達爾·皮查伊(Sundar Pichai)在海外社交媒體X上親自官宣:“我們最新的Gemini 2.5 Pro更新現已發布預覽版……我們聽取了您的反饋,并對回答的風格和結構進行了改進。您可以在Al Studio、Vertex Al平臺和Gemini app中進行試用。正式版即將推出!”


一、性能全面屠榜,Gemini以1443分登頂WebDevArena榜單

在5月年度I/O開發者大會上,谷歌宣布已對Gemini 2.5 Pro進行靜默升級。谷歌DeepMind首席執行官戴米斯·哈薩比斯(Demis Hassabis)當時評價I/O版本是公司迄今最佳編程模型。

而此次名為“Gemini 2.5 Pro Preview 06-05 Thinking”的新預覽版在05-06版本之上進行的更新,測試表現更優,谷歌在博客中評價該版本為“我們迄今為止最有智慧的模型”。谷歌還透露說,新版本“具備企業級應用成熟度”,將于兩周后作為穩定版面世。

Gemini 2.5 Pro Preview 06-05 Thinking在基準測試中全面屠榜,文本、視覺、網頁開發、編程、數學、創意、多輪對話、指令跟隨及長查詢類別等能力上均拔得頭籌。


▲綜合榜單(來源:LMArena)

有網友在用Emoji表情標出了06-05版本的表現對比,可以看出其在測試數學能力的AIME 2025、測試代碼生成的LiveCodeBench上并未超過o3和o4-mini,視覺推理的MMMU榜單上也未超過o3,仍有進步空間。

且在價格上,06-05版本與榜單中的其他模型相比較為實惠,但仍遠高于DeepSeek R1。


從細分榜單來看,LMArena文本基準測試中,06-05版本的Elo分數較05-06版提升24分,以1470分保持榜首。WebDevArena測試中,其Elo分數以1443分領先,較此前提升了35分。06-05版本也領跑Aider Polyglot等高難度編程基準測試,超越DeepSeek R1等一眾大模型。


▲WebDevArena榜單(來源:LMArena)

在HLE(Humanity’s Last Exam,人類終極測試)中,06-05版本的成績為21.6%,幾乎是Claude 4 Opus的2倍,GPQA測試的成績也同樣占據榜首。這兩個測試是評估數學、科學、知識及推理能力的超高難度測試,06-05版本的亮眼成績足以說明它的實力。


▲HLE榜單(來源:Humanity’s Last Exam官網)

即刻起,開發者們可以從谷歌AI Studio和Vertex AI平臺接入Gemini API體驗最新版本,谷歌還在這兩個平臺上新增了“思考預算”功能,優化成本與延遲控制。同時,新版本也將在Gemini應用上逐步推出。

二、Gemini新版被玩出花了

06-05版本一經推出就有許多開發者和用戶進行體驗嘗鮮。

首先是圖像生成方面,皮查伊自己用Gemini生成了一張獅子的特寫照片,圖片十分生動:


卡通動畫風也是不在話下:


編程方面:Android studio提示Gemini 2.5 Pro Preview 06-05 Thinking創建一個用戶個人資料圖片,要求包含:Android Jetpack Compose 代碼,能夠生成類似該用戶個人資料圖片的代碼以及導入語句、Material3和代碼文檔,結果十分驚艷:


有網友要求06-05版本編寫一個Python程序,模擬隨機車流量單行道上的交通信號燈運作過程:


還有網友要求06-05版本編寫一個“3D球體”代碼來展示它的能力,結果它僅憑一句指令就生成了這個交互式粒子系統,讓網友直呼“這不可能是真的!”


結語:大模型進入快迭代時代

此前,DeepSeek和OpenAI的推理模型曾主導行業關注焦點,智東西不久之前曾報道DeepSeek-R1-0528開源,其性能接近OpenAI在4月中旬發布的o4 mini和o3模型高版本。谷歌此番更新更是迎頭趕上,全面屠榜,基準測試結果超越DeepSeek R1和OpenAI的o3、o3-mini和o4-mini。

Gemini 2.5 Pro初代版本于3月發布時,Venture Beat的馬特·馬歇爾(Matt Marshall)就稱其為“最被低估的智能模型”。這一評價很快得到驗證,憑借2.5 Pro及其兩個升級版本的快速迭代,谷歌不僅大幅提升了模型的多模態理解、長文本推理和代碼生成能力,更在大語言模型性能基準測試中多次超越競品。

如今大模型的迭代周期越來越短,基準測試榜單的頭把交椅也時常易主。AI較量的白熱化提醒我們,大模型從一開始的大爆發時代已經進入快迭代時代。

來源:谷歌Blog、X、LMArena、Humanity’s Last Exam以及Venture Beat

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海門診量激增!有人癢到恨不得挖肉,咋辦?

上海門診量激增!有人癢到恨不得挖肉,咋辦?

看看新聞Knews
2025-06-21 20:06:10
封鎖霍爾木茲?現在國內一些人喊的嗷嗷叫,這是典型的賣國行為!

封鎖霍爾木茲?現在國內一些人喊的嗷嗷叫,這是典型的賣國行為!

翻開歷史和現實
2025-06-23 23:28:47
外國人是否羨慕中國人少體味?熱評炸開鍋,答案出人意料!

外國人是否羨慕中國人少體味?熱評炸開鍋,答案出人意料!

特約前排觀眾
2025-06-23 00:05:08
才播2集,收視率第一!央視一套這部年代劇,又是2025黑馬

才播2集,收視率第一!央視一套這部年代劇,又是2025黑馬

阿廢冷眼觀察所
2025-06-24 00:10:30
中印邊境之戰,美蘇為何會支持印度,32天戰爭讓印度做了58年噩夢

中印邊境之戰,美蘇為何會支持印度,32天戰爭讓印度做了58年噩夢

易玄
2025-02-15 12:16:20
以色列最大醫院被炸,內塔尼亞胡氣得發帖稱,伊朗在襲擊平民設施

以色列最大醫院被炸,內塔尼亞胡氣得發帖稱,伊朗在襲擊平民設施

碳基生物關懷組織
2025-06-19 18:03:22
坐地鐵被踩了一下腳,妹子剛要發飆,一低頭…沒關系隨便踩!

坐地鐵被踩了一下腳,妹子剛要發飆,一低頭…沒關系隨便踩!

愛寵物
2025-06-23 22:08:46
1936年,馬家軍槍斃一小紅軍,小紅軍說:用刀吧,留下子彈打日寇

1936年,馬家軍槍斃一小紅軍,小紅軍說:用刀吧,留下子彈打日寇

南權先生
2025-06-20 16:51:04
青春風暴!國足東亞杯平均年齡23歲,備戰28年奧運與30年世界杯!

青春風暴!國足東亞杯平均年齡23歲,備戰28年奧運與30年世界杯!

海浪星體育
2025-06-23 15:47:37
怒吼中國小將,埃格努拒絕和中國女排握手,誰注意龔翔宇舉動

怒吼中國小將,埃格努拒絕和中國女排握手,誰注意龔翔宇舉動

樂聊球
2025-06-23 09:25:16
笑麻了!妻子回應張紀中72歲生育能力沖上熱搜,笑死在評論區

笑麻了!妻子回應張紀中72歲生育能力沖上熱搜,笑死在評論區

霹靂炮
2025-06-22 22:27:55
雷霆成為歷史上第六支不繳奢侈稅奪冠球隊,上一支是20年湖人

雷霆成為歷史上第六支不繳奢侈稅奪冠球隊,上一支是20年湖人

懂球帝
2025-06-23 14:36:12
女子吐槽婆婆剛退休就躺平,家里還有負債!網友怒批“不要臉”

女子吐槽婆婆剛退休就躺平,家里還有負債!網友怒批“不要臉”

特約前排觀眾
2025-06-24 00:05:07
這么明目張膽了嗎?深圳地鐵出現一疑似艾滋病患者,身上有膿包

這么明目張膽了嗎?深圳地鐵出現一疑似艾滋病患者,身上有膿包

星河也燦爛
2025-06-23 20:08:05
Deepseek分析:利潤很高的10大副業,不起眼卻很賺錢,又漲知識了

Deepseek分析:利潤很高的10大副業,不起眼卻很賺錢,又漲知識了

有趣的火烈鳥
2025-02-20 08:42:05
明晚開播!CCTV8黃金檔大制作劇來襲!張譯主演,10位實力派加盟

明晚開播!CCTV8黃金檔大制作劇來襲!張譯主演,10位實力派加盟

說說史事
2025-06-23 16:11:02
四川安岳一男子花2個月開鑿“奧特曼石窟”?當地稱將調查核實

四川安岳一男子花2個月開鑿“奧特曼石窟”?當地稱將調查核實

上游新聞
2025-06-22 16:08:05
球隊選項4489萬!火記:預計范喬丹回歸的消息將在未來幾天內公布

球隊選項4489萬!火記:預計范喬丹回歸的消息將在未來幾天內公布

直播吧
2025-06-23 05:41:32
海南17歲失聯女生遺體河中找到,失蹤時曾獨自搭乘摩的

海南17歲失聯女生遺體河中找到,失蹤時曾獨自搭乘摩的

映射生活的身影
2025-06-23 23:14:22
36歲技術總監辭退款僅5萬,秒退所有工作群,次日513個未接來電

36歲技術總監辭退款僅5萬,秒退所有工作群,次日513個未接來電

磊子講史
2025-06-19 16:46:45
2025-06-24 01:39:00
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
10056文章數 116781關注度
往期回顧 全部

數碼要聞

小米 REDMI K Pad 平板游戲視野拓展功能曝光

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經要聞

以伊沖突升級,對經濟和股市影響有多大?

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

汽車要聞

真香價格+質保承諾 別克E5很難讓人拒絕了

態度原創

家居
房產
數碼
健康
軍事航空

家居要聞

山水之間 墨染風雨云間

房產要聞

3天,75億!海南賣地殺瘋了!

數碼要聞

500元拿下240Hz產品?暑期裝機別錯過這些型號

呼吸科專家破解呼吸道九大謠言!

軍事要聞

伊朗:即便核設施被毀 游戲也遠未結束

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 湖北省| 崇文区| 同心县| 珲春市| 浪卡子县| 灵璧县| 新乐市| 丰顺县| 台中县| 大安市| 长汀县| 丘北县| 吉林省| 射阳县| 五常市| 康保县| 行唐县| 沈丘县| 揭西县| 绥阳县| 南溪县| 泰顺县| 左云县| 东乡| 巴彦县| 司法| 西乡县| 大邑县| 大新县| 稻城县| 崇阳县| 胶州市| 满城县| 岗巴县| 松滋市| 左云县| 惠来县| 城市| 盐津县| 高青县| 永昌县|