99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌Gemini 2.5全線爆發(fā)!勇戰(zhàn)「瀕死恐慌」,卻被絲血寶可夢嚇到當場宕機

0
分享至


新智元報道

編輯:定慧 桃子

【新智元導讀】今天,谷歌旗艦Gemini 2.5三箭齊發(fā),首次亮相輕量版2.5 Flash-Lite。最新70頁技術報告中,爆料了Gemini 2.5在玩寶可夢瀕死時,驚現(xiàn)類人的恐慌,導致推理性能直線下降。

昨夜,Gemini 2.5全家桶三款模型,正式上線。

Gemini 2.5 Pro(正式版,與0605預覽版相比無明顯變化)

Gemini 2.5 Flash(正式版,與0520預覽版相比定價有變)

Gemini 2.5 Flash-Lite(預覽版,最小推理模型)


這次,Gemini 2.5 Flash和Gemini 2.5 Pro正式版上線,與谷歌I/O大會公布的預覽版性能無明顯變化。

2.5 Flash-Lite預覽版則是速度最快、性價比最高的Gemini 2.5系模型。

未開啟思考模式,F(xiàn)lash-Lite版輸入價格僅為0.1美元/百萬token,輸出價格0.4美元/百萬token。


基準測試顯示,2.5 Flash-Lite版(開啟思考模式)在數(shù)學、知識問答、編碼、視覺理解、多語種性能上,足以媲美2.5 Flash。

相較于上一代,2.5 Flash-Lite性能提升顯著,尤其是在數(shù)學、編碼任務中。

在LMArena榜單中,Gemini-2.5-Flash-Lite在文本競技場中位列第12,創(chuàng)意寫作中第 3,編程中第14,在Hard Prompt中第17。




左右滑動查看

谷歌VP一個demo告訴你,2.5 Flash-Lite輸出速度,能快到實時編寫每個界面的代碼。

關于Gemini 2.5家族最新進展,全藏在技術報告中了,接下來讓我們一一拆解。


技術報告:https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

Gemini 2.X家族,一年超進化

谷歌Gemini團隊將這次更新,稱之為「Gemini 2.X模型家族」。

除了如上提到了2.5系列,還包括了2.0系列的一些迭代。

谷歌將Gemini 2.X系列定位于新一代AI模型的發(fā)展方向,與此前的1.X系列相比,2.X系列寄托了谷歌打造通用人工智能的愿景。

值得一提的是,谷歌希望把Gemini打造為真正的融合體系,此前谷歌賬號承載的只是用戶信息,但谷歌賬號本身其實不「保留狀態(tài)」。

Gemini要打造成為一個真正融合在整個谷歌生態(tài)系統(tǒng)中的AI助手,Gemin將看到、聽到甚至預知到你的下一個想法。

Gemini 2.X系列的所有模型均原生支持多模態(tài),并支持超過一百萬Token的長上下文輸入,并具備原生工具使用能力。

這使得它們能夠理解海量數(shù)據(jù)集,并處理來自不同信息源的復雜問題,包括文本、音頻、圖像、視頻,甚至整個代碼倉庫。

Gemini 2.5模型架構

Gemini 2.5模型采用稀疏MoE(Mixture-of-Experts)模型,能夠原生支持文本、視覺和音頻輸入的多模態(tài)處理。

模型架構方面的改進讓Gemini 2.5的能力相較于Gemini 1.5 Pro提升顯著。

Gemini 2.5模型在Gemini 1.5處理長上下文查詢的成功基礎上構建,并融合了新的建模進展。

Gemini 2.5 Pro在處理長達100萬個token的長上下文輸入序列方面超越了Gemini 1.5 Pro。

毋庸置疑,Gemini 2.5 Pro是當前最強模型,在前沿編程、推理基準測試中,刷新了SOTA。

它還具備了頂尖多模態(tài)能力,現(xiàn)可解析「長達3小時」的視頻內容,具備了「長上下文+多模態(tài)+推理」三位一體的特點。

AI價格領導者和制定者

從價格VS性能這張圖中可以看出,谷歌Gemini 2.X在性價比上建立了強大的護城河。

正如論文所言,Gemini 2.X家族完整覆蓋了模型性能-成本帕累托前沿(Pareto frontier)。


Gemini 2.X性能躍升

Gemini 2.X家族模型,在編程、數(shù)學和推理任務上比前代模型都有大幅的躍升。


下面這張多項基準測試圖,全面覆蓋Gemini 2.X的性能。從1.5到2.0,再到2.5,模型在各項指標上表現(xiàn)大幅提升。

而這些變化,僅在過去一年發(fā)生的。


橫向對比之后,再來看縱向對比。Gemini 2.5 Pro在多項基準測試中,幾乎刷新SOTA,尤其是在推理方面。


語音理解上,Gemini 2.5 Pro刷新了SOTA。視頻理解方面,Gemini 2.5 Pro超越了GPT-4.1。



與o3/o4-mini、Claude 4 Opus、DeepSeek-R1相比,只有Gemini 2.5 Flash-Lite每秒輸出的token數(shù)接近350個。


Gemini 2.5最大的改進在于該系列所有模型都原生的融入了動態(tài)「Thinking」能力,能夠根據(jù)推理時間的增加進一步增加能力。


面向特定能力的改進

Gemini 2.5進行了專門「領域」能力的優(yōu)化:代碼處理能力、事實準確性、長文本理解、多語言能力、音頻和視頻處理能力,以及智能體(特別Gemini Deep Research)。

· 代碼能力

Gemini2.0與2.5在代碼能力上實現(xiàn)飛躍,通過優(yōu)化預訓練與后訓練流程,提升多模態(tài)開發(fā)效率與實用性。

· 事實性

Gemini模型始終聚焦提升對信息型提問的事實性回應能力。

Gemini 1.5引入FACTS Grounding成為評估標準,2.0具備調用Google搜索、整合實時信息等功能,2.5更增強多跳推理與工具協(xié)同分析力。

· 長上下文

Gemini 2.5在模型結構和數(shù)據(jù)優(yōu)化下,顯著增強百萬級長上下文處理能力,全面領先于Gemini 1.5。

甚至能從46分鐘視頻中準確回憶1秒事件。

· 多語言能力

多語言能力實現(xiàn)重大飛躍,覆蓋400多種語言。特別在中文、日語、韓語等語言中提升顯著。

· 音頻生成與理解能力雙進化:

Gemini 1.5專注于音頻理解任務(如轉錄、翻譯、問答等),而Gemini 2.5進一步具備音頻生成能力(如文本轉語音和音視頻生成對話)。

模型能實現(xiàn)音頻的流式輸入輸出,支持低延遲對話。

支持超過200種語言。

· 視頻理解與內容生成突破:

將視頻處理效率從每幀258個視覺token優(yōu)化為66個,使模型可在100萬token窗口內處理約3小時視頻。

新能力包括從視頻中自動生成互動應用(如測試題)和p5.js動畫,用于可視化關鍵概念。

· 智能體能力躍升:Gemini Deep Research:

基于Gemini 2.5 Pro的Deep Research Agent可自動瀏覽網(wǎng)頁、解決小眾問題,并具備任務優(yōu)先級排序及「死胡同」識別能力。

在「人類最后考試」(Humanity’s Last Exam benchmark)基準測試中的表現(xiàn)從 7.95% 提升至當前的 26.9%。

如果使用更高算力甚至能達到32.4%,展現(xiàn)出前沿的搜索與推理能力。

想要體驗Gemini的所有系列模型,可以在Google AI Studio上免費使用,各個模型的對應關系如下圖所示。


在Gemini 2.5全面推出后,2.0 Flash/Flash-Lite系列將持續(xù)提供,更高性價比的低延遲響應。


致謝彩蛋

在這份長達70頁的Gemini 2.5技術報告中,致謝名單就有12頁(46-58)。

但如果你仔細觀察就會發(fā)現(xiàn),第一列致謝的貢獻者首字母拼起來是:

「GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH」

翻譯過來就是,GEMINI模型能快速思考并立即給出回應,這也是極客的浪漫吧。


挑戰(zhàn)寶可夢

「絲血」就會「恐慌」

另外,Gemini在玩「寶可夢」游戲中,展現(xiàn)了超強推理能力與長時程任務連貫性的能力。

它在設定超800小時長期目標中,成功挑戰(zhàn)了整個游戲。而且,在第二次自主運行時,完成的時間幾乎縮短一半。


技術報告第4部分,詳細介紹了Gemini挑戰(zhàn)「寶可夢」的驚人旅程。

獨立開發(fā)者Joel Zhang最先發(fā)起,讓Gemini 2.5去通關。AI首次耗時813小時,成功進入了名人堂,成為了寶可夢聯(lián)盟冠軍。

更令人振奮的是,Joel于5月22日讓升級版Gemini 2.5再次開啟全自動二周目挑戰(zhàn)時,它的通關速度大幅提升,僅耗時406.5。

如圖所示,關鍵里程碑時間抽,從游戲開局到擊敗四天王,Gemini智能體效率提升清晰可見。


更有趣的是,報告中稱,Gemini 2.5 Pro在挑戰(zhàn)寶可夢生命值低時,會進入一種「慌亂」的狀態(tài),導致推理能力出現(xiàn)質性下降。

雖然AI沒有情緒,但它的行為卻像人類在壓力下做出倉促決定一樣。

比如,當寶可夢瀕臨死亡時,Gemini可能會突然停止使用某些工具,導致游戲表現(xiàn)下滑。


不過,Gemini 2.5 Pro在解決「巨石謎題」上,展現(xiàn)了超乎尋常的能力。

通過創(chuàng)建專門的智能體工具,如路徑規(guī)劃器/策略師,Gemini能在沒有任何人類干預情況下,一次性解決冠軍之路的復雜巨石謎題。


2.5 Flash-Lite首亮相

速度最快,極致性價比

全新Gemini 2.5 Flash-Lite繼承了Gemini 2.5核心優(yōu)勢功能。

它支持控制思考預算的能力,可開啟/關閉深度思考,還能無縫連接谷歌搜索、代碼執(zhí)行等工具。

與2.0 Flash-Lite不同的是,它科技原生支持多模態(tài)輸入,有100M token上下文。

谷歌稱,這款模型特別擅長翻譯、分類等高吞吐量、低延遲敏感型任務。


下面這個demo中,是Gemini 2.5 Flash-Lite構建研究原型過程。

它能夠將大型PDF立即轉換成交互式Web應用程序,從而更輕松地匯總和理解密集信息。

它還通過了物理模擬測試。



參考資料:

https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

https://x.com/sundarpichai/status/1935004780117807288

https://blog.google/products/gemini/gemini-2-5-model-family-expands/

https://developers.googleblog.com/en/gemini-2-5-thinking-model-updates/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
潛伏在中國的反華家族,靠大陸收入上億,今國家出手下場大快人心

潛伏在中國的反華家族,靠大陸收入上億,今國家出手下場大快人心

紅色鑒史官
2025-06-16 20:30:03
原陸軍中將尤海濤被查處,系開國少將尤太忠之子,他讓父輩蒙羞

原陸軍中將尤海濤被查處,系開國少將尤太忠之子,他讓父輩蒙羞

揚平說史
2025-01-03 21:10:50
以軍變本加厲,伊朗新司令,僅上臺96小時就殉國

以軍變本加厲,伊朗新司令,僅上臺96小時就殉國

科技有趣事
2025-06-18 11:56:28
11億黃金級肉簽公布中簽號碼,中簽人數(shù)較多,股民中得即賺到!

11億黃金級肉簽公布中簽號碼,中簽人數(shù)較多,股民中得即賺到!

數(shù)據(jù)挖掘分析
2025-06-18 13:15:10
伊朗要上大蘑菇?今發(fā)布“最后通牒”,警告以色列民眾盡快逃命!

伊朗要上大蘑菇?今發(fā)布“最后通牒”,警告以色列民眾盡快逃命!

陳博世財經(jīng)
2025-06-17 10:23:11
中年女人允許曖昧,卻又不讓你碰,大多是以下三個原因

中年女人允許曖昧,卻又不讓你碰,大多是以下三個原因

葉飛飛情感屋
2025-06-18 18:45:33
“91大神”唐哥:拍攝22部視頻,非法獲利400萬,內容不堪入目

“91大神”唐哥:拍攝22部視頻,非法獲利400萬,內容不堪入目

就一點
2025-06-16 16:48:18
茍坪卸任國務院國資委副主任,已任中國星網(wǎng)集團董事長

茍坪卸任國務院國資委副主任,已任中國星網(wǎng)集團董事長

澎湃新聞
2025-06-18 13:12:27
剛剛,安徽一廳級“內鬼”被查

剛剛,安徽一廳級“內鬼”被查

魯中晨報
2025-06-18 17:34:03
清華美女學霸走紅后續(xù):父親不讓其直播,本人回應已和父親鬧掰

清華美女學霸走紅后續(xù):父親不讓其直播,本人回應已和父親鬧掰

不寫散文詩
2025-06-18 16:22:10
無論登貝萊還是亞馬爾拿到金球獎,都將恢復05年延續(xù)至今的傳統(tǒng)

無論登貝萊還是亞馬爾拿到金球獎,都將恢復05年延續(xù)至今的傳統(tǒng)

體育一點就通
2025-06-18 11:31:09
28歲小伙龍泉山遇難后續(xù)!最后畫面曝光,知情人稱被野豬吃了一半

28歲小伙龍泉山遇難后續(xù)!最后畫面曝光,知情人稱被野豬吃了一半

壹月情感
2025-06-17 22:14:18
3:2!日本女排顏面掃地,險被亞洲魚腩爆冷,中國隊要有危機感

3:2!日本女排顏面掃地,險被亞洲魚腩爆冷,中國隊要有危機感

跑者排球視角
2025-06-18 20:00:51
老毛病又犯了!馬克龍再次和女嘉賓眉來眼去,布里吉特悔之晚矣

老毛病又犯了!馬克龍再次和女嘉賓眉來眼去,布里吉特悔之晚矣

小嵩
2025-06-18 11:45:05
多個省年輕干部前往新疆任職

多個省年輕干部前往新疆任職

魯中晨報
2025-06-18 18:42:06
36D“奶糖妹妹”私照公開,發(fā)育過猛了,這是不打碼能看的?

36D“奶糖妹妹”私照公開,發(fā)育過猛了,這是不打碼能看的?

健身迷
2025-06-14 09:37:06
每年70萬人因肺癌而死!再次勸告:天熱寧可吹吹風扇,也別做6事

每年70萬人因肺癌而死!再次勸告:天熱寧可吹吹風扇,也別做6事

嘆為觀止易
2025-06-17 11:44:21
京東集團CEO許冉首次揭秘外賣員收入:北上廣深等一線城市,京東全職外賣騎手的人均月收入已經(jīng)接近了1.3萬元

京東集團CEO許冉首次揭秘外賣員收入:北上廣深等一線城市,京東全職外賣騎手的人均月收入已經(jīng)接近了1.3萬元

和訊網(wǎng)
2025-06-18 09:17:30
汪東興晚年懊悔:我當年怎么就瞎了眼,推薦了這樣一個人給毛主席

汪東興晚年懊悔:我當年怎么就瞎了眼,推薦了這樣一個人給毛主席

方圓文史
2023-10-23 19:32:54
特朗普騎虎難下,美若對伊朗動武,或將為中國提供新一輪戰(zhàn)略機遇

特朗普騎虎難下,美若對伊朗動武,或將為中國提供新一輪戰(zhàn)略機遇

博覽歷史
2025-06-17 11:35:30
2025-06-18 22:24:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
12906文章數(shù) 66072關注度
往期回顧 全部

數(shù)碼要聞

新版家用冰箱能效等級國家標準明年 6 月實施,約 20% 產(chǎn)品將淘汰

頭條要聞

廣東懷集出現(xiàn)55.22米洪峰水位 洪水已漫入周邊居民樓

頭條要聞

廣東懷集出現(xiàn)55.22米洪峰水位 洪水已漫入周邊居民樓

體育要聞

高僧下山了!文班結束少林寺10日修行

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產(chǎn)

財經(jīng)要聞

被爆添加毒原料后相宜本草高管先后出走

科技要聞

別叫我互聯(lián)網(wǎng)公司,京東的野心藏不住了

汽車要聞

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產(chǎn)

態(tài)度原創(chuàng)

健康
旅游
藝術
家居
房產(chǎn)

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

溫暖明亮 三代同堂之家

房產(chǎn)要聞

創(chuàng)紀錄了!海南單日賣地44億!保利、方大瘋狂出手!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 夹江县| 通辽市| 奎屯市| 景宁| 友谊县| 德昌县| 沭阳县| 比如县| 大渡口区| 苏尼特右旗| 武清区| 墨玉县| 厦门市| 昭觉县| 寻甸| 南京市| 隆回县| 北安市| 天门市| 黔西县| 玛多县| 广西| 和硕县| 奈曼旗| 金平| 印江| 敖汉旗| 洛浦县| 门头沟区| 喀什市| 乌什县| 绥江县| 麻江县| 文昌市| 南丹县| 施秉县| 博白县| 四川省| 徐闻县| 广饶县| 沛县|