99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

谷歌Gemini 2.5全線爆發!勇戰「瀕死恐慌」,卻被絲血寶可夢嚇到當場宕機

0
分享至


新智元報道

編輯:定慧 桃子

【新智元導讀】今天,谷歌旗艦Gemini 2.5三箭齊發,首次亮相輕量版2.5 Flash-Lite。最新70頁技術報告中,爆料了Gemini 2.5在玩寶可夢瀕死時,驚現類人的恐慌,導致推理性能直線下降。

昨夜,Gemini 2.5全家桶三款模型,正式上線。

Gemini 2.5 Pro(正式版,與0605預覽版相比無明顯變化)

Gemini 2.5 Flash(正式版,與0520預覽版相比定價有變)

Gemini 2.5 Flash-Lite(預覽版,最小推理模型)


這次,Gemini 2.5 Flash和Gemini 2.5 Pro正式版上線,與谷歌I/O大會公布的預覽版性能無明顯變化。

2.5 Flash-Lite預覽版則是速度最快、性價比最高的Gemini 2.5系模型。

未開啟思考模式,Flash-Lite版輸入價格僅為0.1美元/百萬token,輸出價格0.4美元/百萬token。


基準測試顯示,2.5 Flash-Lite版(開啟思考模式)在數學、知識問答、編碼、視覺理解、多語種性能上,足以媲美2.5 Flash。

相較于上一代,2.5 Flash-Lite性能提升顯著,尤其是在數學、編碼任務中。

在LMArena榜單中,Gemini-2.5-Flash-Lite在文本競技場中位列第12,創意寫作中第 3,編程中第14,在Hard Prompt中第17。




左右滑動查看

谷歌VP一個demo告訴你,2.5 Flash-Lite輸出速度,能快到實時編寫每個界面的代碼。

關于Gemini 2.5家族最新進展,全藏在技術報告中了,接下來讓我們一一拆解。


技術報告:https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

Gemini 2.X家族,一年超進化

谷歌Gemini團隊將這次更新,稱之為「Gemini 2.X模型家族」。

除了如上提到了2.5系列,還包括了2.0系列的一些迭代。

谷歌將Gemini 2.X系列定位于新一代AI模型的發展方向,與此前的1.X系列相比,2.X系列寄托了谷歌打造通用人工智能的愿景。

值得一提的是,谷歌希望把Gemini打造為真正的融合體系,此前谷歌賬號承載的只是用戶信息,但谷歌賬號本身其實不「保留狀態」。

Gemini要打造成為一個真正融合在整個谷歌生態系統中的AI助手,Gemin將看到、聽到甚至預知到你的下一個想法。

Gemini 2.X系列的所有模型均原生支持多模態,并支持超過一百萬Token的長上下文輸入,并具備原生工具使用能力。

這使得它們能夠理解海量數據集,并處理來自不同信息源的復雜問題,包括文本、音頻、圖像、視頻,甚至整個代碼倉庫。

Gemini 2.5模型架構

Gemini 2.5模型采用稀疏MoE(Mixture-of-Experts)模型,能夠原生支持文本、視覺和音頻輸入的多模態處理。

模型架構方面的改進讓Gemini 2.5的能力相較于Gemini 1.5 Pro提升顯著。

Gemini 2.5模型在Gemini 1.5處理長上下文查詢的成功基礎上構建,并融合了新的建模進展。

Gemini 2.5 Pro在處理長達100萬個token的長上下文輸入序列方面超越了Gemini 1.5 Pro。

毋庸置疑,Gemini 2.5 Pro是當前最強模型,在前沿編程、推理基準測試中,刷新了SOTA。

它還具備了頂尖多模態能力,現可解析「長達3小時」的視頻內容,具備了「長上下文+多模態+推理」三位一體的特點。

AI價格領導者和制定者

從價格VS性能這張圖中可以看出,谷歌Gemini 2.X在性價比上建立了強大的護城河。

正如論文所言,Gemini 2.X家族完整覆蓋了模型性能-成本帕累托前沿(Pareto frontier)。


Gemini 2.X性能躍升

Gemini 2.X家族模型,在編程、數學和推理任務上比前代模型都有大幅的躍升。


下面這張多項基準測試圖,全面覆蓋Gemini 2.X的性能。從1.5到2.0,再到2.5,模型在各項指標上表現大幅提升。

而這些變化,僅在過去一年發生的。


橫向對比之后,再來看縱向對比。Gemini 2.5 Pro在多項基準測試中,幾乎刷新SOTA,尤其是在推理方面。


語音理解上,Gemini 2.5 Pro刷新了SOTA。視頻理解方面,Gemini 2.5 Pro超越了GPT-4.1。



與o3/o4-mini、Claude 4 Opus、DeepSeek-R1相比,只有Gemini 2.5 Flash-Lite每秒輸出的token數接近350個。


Gemini 2.5最大的改進在于該系列所有模型都原生的融入了動態「Thinking」能力,能夠根據推理時間的增加進一步增加能力。


面向特定能力的改進

Gemini 2.5進行了專門「領域」能力的優化:代碼處理能力、事實準確性、長文本理解、多語言能力、音頻和視頻處理能力,以及智能體(特別Gemini Deep Research)。

· 代碼能力

Gemini2.0與2.5在代碼能力上實現飛躍,通過優化預訓練與后訓練流程,提升多模態開發效率與實用性。

· 事實性

Gemini模型始終聚焦提升對信息型提問的事實性回應能力。

Gemini 1.5引入FACTS Grounding成為評估標準,2.0具備調用Google搜索、整合實時信息等功能,2.5更增強多跳推理與工具協同分析力。

· 長上下文

Gemini 2.5在模型結構和數據優化下,顯著增強百萬級長上下文處理能力,全面領先于Gemini 1.5。

甚至能從46分鐘視頻中準確回憶1秒事件。

· 多語言能力

多語言能力實現重大飛躍,覆蓋400多種語言。特別在中文、日語、韓語等語言中提升顯著。

· 音頻生成與理解能力雙進化:

Gemini 1.5專注于音頻理解任務(如轉錄、翻譯、問答等),而Gemini 2.5進一步具備音頻生成能力(如文本轉語音和音視頻生成對話)。

模型能實現音頻的流式輸入輸出,支持低延遲對話。

支持超過200種語言。

· 視頻理解與內容生成突破:

將視頻處理效率從每幀258個視覺token優化為66個,使模型可在100萬token窗口內處理約3小時視頻。

新能力包括從視頻中自動生成互動應用(如測試題)和p5.js動畫,用于可視化關鍵概念。

· 智能體能力躍升:Gemini Deep Research:

基于Gemini 2.5 Pro的Deep Research Agent可自動瀏覽網頁、解決小眾問題,并具備任務優先級排序及「死胡同」識別能力。

在「人類最后考試」(Humanity’s Last Exam benchmark)基準測試中的表現從 7.95% 提升至當前的 26.9%。

如果使用更高算力甚至能達到32.4%,展現出前沿的搜索與推理能力。

想要體驗Gemini的所有系列模型,可以在Google AI Studio上免費使用,各個模型的對應關系如下圖所示。


在Gemini 2.5全面推出后,2.0 Flash/Flash-Lite系列將持續提供,更高性價比的低延遲響應。


致謝彩蛋

在這份長達70頁的Gemini 2.5技術報告中,致謝名單就有12頁(46-58)。

但如果你仔細觀察就會發現,第一列致謝的貢獻者首字母拼起來是:

「GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH」

翻譯過來就是,GEMINI模型能快速思考并立即給出回應,這也是極客的浪漫吧。


挑戰寶可夢

「絲血」就會「恐慌」

另外,Gemini在玩「寶可夢」游戲中,展現了超強推理能力與長時程任務連貫性的能力。

它在設定超800小時長期目標中,成功挑戰了整個游戲。而且,在第二次自主運行時,完成的時間幾乎縮短一半。


技術報告第4部分,詳細介紹了Gemini挑戰「寶可夢」的驚人旅程。

獨立開發者Joel Zhang最先發起,讓Gemini 2.5去通關。AI首次耗時813小時,成功進入了名人堂,成為了寶可夢聯盟冠軍。

更令人振奮的是,Joel于5月22日讓升級版Gemini 2.5再次開啟全自動二周目挑戰時,它的通關速度大幅提升,僅耗時406.5。

如圖所示,關鍵里程碑時間抽,從游戲開局到擊敗四天王,Gemini智能體效率提升清晰可見。


更有趣的是,報告中稱,Gemini 2.5 Pro在挑戰寶可夢生命值低時,會進入一種「慌亂」的狀態,導致推理能力出現質性下降。

雖然AI沒有情緒,但它的行為卻像人類在壓力下做出倉促決定一樣。

比如,當寶可夢瀕臨死亡時,Gemini可能會突然停止使用某些工具,導致游戲表現下滑。


不過,Gemini 2.5 Pro在解決「巨石謎題」上,展現了超乎尋常的能力。

通過創建專門的智能體工具,如路徑規劃器/策略師,Gemini能在沒有任何人類干預情況下,一次性解決冠軍之路的復雜巨石謎題。


2.5 Flash-Lite首亮相

速度最快,極致性價比

全新Gemini 2.5 Flash-Lite繼承了Gemini 2.5核心優勢功能。

它支持控制思考預算的能力,可開啟/關閉深度思考,還能無縫連接谷歌搜索、代碼執行等工具。

與2.0 Flash-Lite不同的是,它科技原生支持多模態輸入,有100M token上下文。

谷歌稱,這款模型特別擅長翻譯、分類等高吞吐量、低延遲敏感型任務。


下面這個demo中,是Gemini 2.5 Flash-Lite構建研究原型過程。

它能夠將大型PDF立即轉換成交互式Web應用程序,從而更輕松地匯總和理解密集信息。

它還通過了物理模擬測試。



參考資料:

https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

https://x.com/sundarpichai/status/1935004780117807288

https://blog.google/products/gemini/gemini-2-5-model-family-expands/

https://developers.googleblog.com/en/gemini-2-5-thinking-model-updates/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2006年,十幾名刑警狂毆四名交警,全市交警列隊討公道,結局如何

2006年,十幾名刑警狂毆四名交警,全市交警列隊討公道,結局如何

阿胡
2024-01-08 17:03:39
蘋果新機突然官宣,新配色來了!

蘋果新機突然官宣,新配色來了!

Q科技基地
2025-06-22 12:56:44
伊朗要創造人類歷史?連續擊落4架F-35,卻連以軍導彈都攔截不了

伊朗要創造人類歷史?連續擊落4架F-35,卻連以軍導彈都攔截不了

阿芒娛樂說
2025-06-22 23:55:11
新華社快訊:敘利亞首都大馬士革一座教堂發生爆炸25人喪生

新華社快訊:敘利亞首都大馬士革一座教堂發生爆炸25人喪生

新華社
2025-06-23 00:23:01
內賈德及其家人突傳死訊

內賈德及其家人突傳死訊

高博新視野
2025-06-19 16:30:07
官宣!G7票價創紀錄,哈利伯頓傷情更新,亞歷山大把話挑明

官宣!G7票價創紀錄,哈利伯頓傷情更新,亞歷山大把話挑明

世界體育圈
2025-06-22 10:37:52
朗尼克:花5000萬簽28或30歲球員沒意義,比如拜仁應簽20歲的凱恩

朗尼克:花5000萬簽28或30歲球員沒意義,比如拜仁應簽20歲的凱恩

直播吧
2025-06-22 16:40:16
分析:凱文·杜蘭特重磅交易后,火箭隊和太陽隊的NBA排名

分析:凱文·杜蘭特重磅交易后,火箭隊和太陽隊的NBA排名

好火子
2025-06-23 02:07:25
女網紅曬豪宅曝一年電費40萬,驚動電力局后底細被扒她老公職業值得細品…

女網紅曬豪宅曝一年電費40萬,驚動電力局后底細被扒她老公職業值得細品…

浪花媽媽
2025-06-21 23:14:14
滕帥大手筆!3500萬歐寬薩成隊史標王,藥廠已花6000萬&賣人近2億

滕帥大手筆!3500萬歐寬薩成隊史標王,藥廠已花6000萬&賣人近2億

直播吧
2025-06-22 18:47:15
小因扎吉:所有頂級俱樂部齊聚于世俱杯,唯獨缺了巴薩

小因扎吉:所有頂級俱樂部齊聚于世俱杯,唯獨缺了巴薩

懂球帝
2025-06-22 14:43:16
降幅高達50%左右!全國醫院檢查費用大幅下調,放射類首當其沖…

降幅高達50%左右!全國醫院檢查費用大幅下調,放射類首當其沖…

火山詩話
2025-06-22 17:53:28
大雨、暴雨,局部大暴雨!河南新一輪降雨要來了

大雨、暴雨,局部大暴雨!河南新一輪降雨要來了

魯中晨報
2025-06-22 17:33:28
亞軍沒盤子!王欣瑜僅獲項鏈+鮮花,冠軍選手:連拿獎杯手表香檳

亞軍沒盤子!王欣瑜僅獲項鏈+鮮花,冠軍選手:連拿獎杯手表香檳

侃球熊弟
2025-06-22 21:22:22
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

TVB的四小花
2025-06-14 00:38:15
中國一旦發生戰爭,要記得第一時間要帶好這5樣東西,才能保命

中國一旦發生戰爭,要記得第一時間要帶好這5樣東西,才能保命

阿策聊實事
2025-04-27 17:15:00
美記:火箭送出的次輪簽最晚延伸到了2032年 這筆交易沒有第三隊

美記:火箭送出的次輪簽最晚延伸到了2032年 這筆交易沒有第三隊

直播吧
2025-06-23 01:35:17
Shams:杜蘭特 8 換 1 被太陽交易至火箭!

Shams:杜蘭特 8 換 1 被太陽交易至火箭!

貴圈真亂
2025-06-23 01:21:02
央媒發聲!四天狂掠60萬,承包商血本無歸,紀委終于介入!

央媒發聲!四天狂掠60萬,承包商血本無歸,紀委終于介入!

朗威談星座
2025-06-21 12:12:54
2025-06-23 02:52:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12929文章數 66077關注度
往期回顧 全部

數碼要聞

原生級雙8K回報率!雷柏VT3S鼠標圖賞

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

時尚
藝術
本地
教育
手機

伊姐周日熱推:電視劇《完美的救贖》;電視劇《書卷一夢》......

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學!

手機要聞

華為鴻蒙 HarmonyOS 5.0.1.130 版本游戲場景新增“高性能”模式

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 双牌县| 潢川县| 米脂县| 河曲县| 开江县| 崇左市| 深州市| 苍山县| 怀柔区| 巴林左旗| 宁波市| 天峻县| 临颍县| 黄冈市| 遵化市| 和政县| 肇州县| 和静县| 南康市| 古浪县| 灵川县| 钦州市| 江陵县| 大埔县| 九江市| 新河县| 汉源县| 图们市| 霸州市| 青海省| 尉氏县| 扎鲁特旗| 合江县| 临海市| 贡山| 达州市| 崇明县| 金坛市| 大足县| 金山区| 海丰县|