99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

谷歌最強大模型終于問世!最快輕量版狂卷性價比,價格殺到0.7元/百萬token,技術報告解讀

0
分享至


智東西
編譯 程茜
編輯 心緣

智東西6月18日報道,凌晨,谷歌宣布Gemini 2.5模型全系重磅更新:Gemini 2.5 Pro、Gemini 2.5 Flash發布正式版并進入穩定運行階段,并推出Gemini 2.5 Flash-Lite預覽版。

這意味著Gemini 2.5 Pro、Gemini 2.5 Flash從實驗預覽版變為正式版,可投入企業應用。

Gemini 2.5 Flash Lite在編程、數學、科學、推理和多模態基準測試中全面超越 2.0 Flash-Lite,廣泛任務延遲低于2.0 Flash-Lite和2.0 Flash。谷歌稱這一模型為其最經濟實惠、速度最快的2.5系列模型。


▲Gemini 2.5 Flash Lite基準測試結果

同時,在最新的LMArena排行榜中,Gemini-2.5-Flash-Lite文本排名12,按類別劃分,創意寫作排名第三、編程排名第14、難題提示排名第17


LMArena公布的性價比圖表中,Gemini 2.5 Pro比Gemini 1.5 Pro的分數高出120多分,高于OpenAI、xAI、Anthropic的其他主流模型


▲LMArena發布的主流模型性價比對比圖

價格方面,Gemini-2.5-Flash-Lite比Gemini-2.5-Flash便宜30%-60%,輸入價格為0.1美元(折合人民幣約0.7元)/百萬tokens,輸出價格為0.4美元(折合人民幣約2.9元)/百萬tokens。

谷歌還宣布了Gemini 2.5 Flash的最新定價,模型的思考和非思考價格相同,輸入價格為0.3美元(折合人民幣約2.2元)/百萬tokens,輸出價格為2.5美元(折合人民幣約17.9元)/百萬tokens。


谷歌博客中提到,Gemini 2.5 Pro的銷量和需求持續強勁增長,是他們歷來所有型號中最高的。在此基礎上,研究人員對此型號的06-05版進行了穩定化,并維持與之前相同的帕累托前沿價格點。

如果開發者使用的是Gemini 2.5 Pro Preview 05-06,該模型將持續可用至2025年6月19日,之后將關閉,如果使用Gemini 2.5 Pro Preview 06-05,只需將模型字符串更新為“gemini-2.5-pro”即可。

Gemini 2.5 Flash-Lite預覽版現已在谷歌AI Studio和Vertex AI中上線,同時還提供2.5 Flash和Pro穩定版。2.5 Flash和Pro版本均可在Gemini應用中訪問。谷歌還為谷歌搜索功能引入了2.5 Flash-Lite和Flash的定制版本。


技術報告地址:

https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

一、全面超越 2.0 Flash-Lite,支持谷歌原生工具

Gemini 2.5模型是推理模型,能夠在響應之前進行推理,從而提升性能和準確性。每個模型都可以控制思考預算,讓開發者能夠選擇模型在生成響應之前進行“思考”的時間和程度。

谷歌博客中提到,其最新推出的2.5 Flash-Lite預覽版,是2.5系列模型中延遲、成本都最低的模型,它是Gemini 1.5和2.0 Flash模型的經濟高效升級版。

Gemini 2.5 Flash Lite在編程、數學、科學、推理和多模態基準測試中全面超越 2.0 Flash-Lite。它在翻譯和分類等高容量、延遲敏感的任務中表現出色,在廣泛的任務樣本中,延遲低于2.0 Flash-Lite和2.0 Flash。


性能方面,新模型縮短了首個token的獲取時間,同時實現了更高的每秒token解碼速度。該模型適合大規模分類或匯總等高吞吐量任務。

Gemini 2.5 Flash-Lite是一個推理模型,允許通過API參數動態控制思考預算。由于Flash-Lite針對成本和速度進行了優化,因此Gemini 2.5的其他模型不同,“思考”功能默認處于關閉狀態。

新模型具備Gemini 2.5的諸多功能,包括在不同預算下開啟思考模式、連接谷歌搜索和代碼執行等工具、多模態輸入以及100萬個token的上下文長度。

二、Gemini 2.X系列全面超越前代,編程、圖像理解遜于OpenAI

谷歌還一口氣更新了Gemini 2.5系列模型技術報告,全面介紹了Gemini 2.X模型系列:包括Gemini 2.5 Pro和Gemini 2.5 Flash,以及Gemini 2.0 Flash和Flash-Lite模型。

谷歌技術報告中提到,Gemini 2.5 Pro是谷歌最智能的思維模型,展現出強大的推理和編程能力,擅長生成交互式Web應用程序,能夠進行代碼庫級別的理解,并展現出涌現的多模態編程能力。

Gemini 2.5 Flash是混合推理模型,具有可控的思維預算,適用于大多數復雜任務,同時還能控制質量、成本和延遲之間的平衡。

Gemini 2.0 Flash是谷歌專為日常任務打造的快速且經濟高效的非思考模型;Gemini 2.0 Flash-Lite是谷歌速度最快、成本最低的模型,專為大規模使用而構建。


技術報告中,谷歌對比了Gemini 2.5系列與Gemini 1.5、2.0模型的表現,以及Gemini 2.5系列與其他模型的表現,可以看出,Gemini 2.5系列模型在LiveCodeBench、Aider Polyglot和SWE-bench Verified等編程任務上表現出色,并且比之前的模型有了顯著的改進。

除了編程性能之外,Gemini 2.5模型在數學和推理任務上的表現也明顯整體優于Gemini 1.5系列:在AIME 2025測試中,Gemini 2.5 Pro的準確率為88.0%,而Gemini 1.5 Pro的準確率為17.5%;在 GPQA(鉆石級)測試中,Gemini 2.5 Pro的準確率為86.4%。同樣,圖像理解能力也顯著提升。


與其他主流大語言模型相比,Gemini 2.5 Pro在Aider Polyglot編程任務中獲得SOTA。此外,Gemini 2.5 Pro在Humanity’s Last Exam、GPQA(鉆石級)以及SimpleQA和FACTS Grounding事實性基準測試中獲得最高分。Gemini 2.5 Pro在LOFT和MRCR長上下文任務中以128k的上下文長度獲得了SOTA,并且是上表所考察的所有模型中唯一一個支持1M+tokens上下文長度的模型。

不過,在數學方面,Gemini 2.5 Pro的表現略遜色于OpenAI o4-mini,圖像理解方面分數略低于OpenAI-o3 high。


值得注意的是,從性能表現來看,Gemini 2.5 Flash型號已成為Gemini家族中功能第二強大的型號,不僅超越了之前的Flash型號,還超越了一年前發布的Gemini 1.5 Pro型號。

三、首個在TPU v5p架構上訓練的模型系列

Gemini 2.5系列模型采用稀疏混合專家(MoE)模型,原生支持文本、視覺和音頻輸入。稀疏MoE模型通過學習將token動態路由到參數子集(專家),為每個輸入token激活一個模型參數子集;這使得它們能夠將模型總容量與每個token的計算和服務成本分離。

面對訓練不穩定性的問題,Gemini 2.5模型系列重點優化了增強大規模訓練穩定性、信號傳播和優化動態方面取得了顯著進展。

Gemini 2.5模型建立在Gemini 1.5在處理長上下文查詢方面的成功之上,并結合了新的建模進步,使Gemini 2.5 Pro在處理1M tokens的長上下文輸入序列方面性能超過了Gemini 1.5 Pro。


Gemini 2.5 Pro和Gemini 2.5 Flash都可以處理長格式文本、整個代碼庫以及長格式音頻和視頻數據。

Gemini 2.5模型系列是谷歌第一個在TPU v5p架構上進行訓練的模型系列。谷歌采用同步數據并行訓練,在分布在多個數據中心的谷歌TPU v5p加速器的多個8960芯片pod上進行并行化。

其預訓練數據集是大規模、多樣化的數據集合,涵蓋廣泛的領域和模態,其中包括公開可用的Web文檔、代碼(各種編程語言)、圖像、音頻(包括語音和其他音頻類型)和視頻, Gemini 2.0的截止日期為2024年6月, Gemini 2.5的截止日期為2025年1月。

谷歌還使用了新方法來提高過濾和重復數據刪除的數據質量,其訓練后數據集,由精心收集和審查的指令調優數據組成,是多模態數據的集合,除了人類偏好和工具使用數據外,還有成對的指令和響應。

在后訓練方法階段,谷歌研究報道提出,他們利用模型來協助監督微調(SFT)、獎勵建模(RM)和強化學習(RL)階段,從而實現更高效、更細致的數據質量控制。

此外,谷歌還增加了分配給RL的訓練計算,這與對可驗證獎勵和基于模型的生成獎勵的關注相結合,以提供更復雜和可擴展的反饋信號。RL過程的算法更改提高了長時間訓練期間的穩定性。

Gemini推理模型通過強化學習進行訓練,可在推理時使用額外的計算來得出更準確的答案。生成的模型能夠在“思考”階段,在回答問題或查詢之前花費數萬次正向傳遞。

結語:加速模型投入生產,谷歌加速大模型部署

Gemini 2.X以Gemini 1.5系列為基礎,谷歌在打造更接近通用AI助手路線上的探索,可以看出,2.X系列模型的性能表現已經整體超過前代。

此外,谷歌決定一口氣將這些模型從預覽版變為正式版,其新模型強調性能更強勁的推理能力,以及經濟實惠的特點,或許反映出其面臨越來越大的壓力,需要與其他大模型企業快速為消費者和企業部署相應工具的步伐保持一致。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃曉明機場“整活”!16厘米鞋跟配詭異發際線,網友笑不活了

黃曉明機場“整活”!16厘米鞋跟配詭異發際線,網友笑不活了

玫瑰講娛
2025-06-16 19:44:51
美制戰機損失最大的一天,德黑蘭大批客機爆炸:伊朗空軍被摧毀了

美制戰機損失最大的一天,德黑蘭大批客機爆炸:伊朗空軍被摧毀了

帥先工場
2025-06-17 15:59:21
我爸出軌秘書已經45年,我媽不哭不鬧,在他70歲生日這天絕地反擊

我爸出軌秘書已經45年,我媽不哭不鬧,在他70歲生日這天絕地反擊

詭譎怪談
2025-05-02 15:13:52
S媽時隔27天再發文,稱與大S過去捐款不計其數,懇求網友停止網暴

S媽時隔27天再發文,稱與大S過去捐款不計其數,懇求網友停止網暴

鑫鑫說說
2025-06-18 11:03:14
如果這事還有人洗白,那真是極端的扭曲!

如果這事還有人洗白,那真是極端的扭曲!

胖胖說他不胖
2025-06-17 17:25:29
伊朗稱襲擊摩薩德總部 現場畫面曝光

伊朗稱襲擊摩薩德總部 現場畫面曝光

看看新聞Knews
2025-06-17 20:42:12
從古至今,賺錢最快的路子就一個,從未改變

從古至今,賺錢最快的路子就一個,從未改變

德魯克博雅管理
2025-05-29 17:03:46
第一批韭菜開始站崗

第一批韭菜開始站崗

懶貓的豐收日
2025-06-18 18:35:28
56歲高曉松與高中女友相約聚會,曬二人戀愛時合影,被嘲像兩代人

56歲高曉松與高中女友相約聚會,曬二人戀愛時合影,被嘲像兩代人

娛圈小愚
2025-06-18 08:53:07
全市場:羅馬官網短短幾小時被擠癱瘓,暫停季票銷售

全市場:羅馬官網短短幾小時被擠癱瘓,暫停季票銷售

懂球帝
2025-06-18 00:07:22
伊朗發生大規模網絡中斷 互聯網服務將切換至國家內部網絡

伊朗發生大規模網絡中斷 互聯網服務將切換至國家內部網絡

財聯社
2025-06-18 00:11:18
伊朗要變天了

伊朗要變天了

戰爭研究所
2025-06-13 23:40:34
以色列青年粗暴阻止亞洲工人進入防空洞:避難所專供以色列人用!

以色列青年粗暴阻止亞洲工人進入防空洞:避難所專供以色列人用!

阿龍聊軍事
2025-06-18 10:29:40
中紀委劃紅線!機關事業單位職工下班后,不能去這8類場所!

中紀委劃紅線!機關事業單位職工下班后,不能去這8類場所!

金哥說新能源車
2025-06-11 13:29:08
蘇超“太湖三可愛”成了交通一卡通卡面?官方:是真的

蘇超“太湖三可愛”成了交通一卡通卡面?官方:是真的

現代快報
2025-06-18 15:34:07
福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

美家指南
2025-06-09 11:08:50
不要修特異功能:我身邊有神通的人沒有一個好下場

不要修特異功能:我身邊有神通的人沒有一個好下場

老僧奇譚
2025-06-17 11:23:09
李嘉誠說:“只有窮人,才會癡迷技術,只有笨人,才會先把事做好

李嘉誠說:“只有窮人,才會癡迷技術,只有笨人,才會先把事做好

伊人河畔
2025-06-08 11:05:34
國足敲定臨時主帥,久爾杰維奇將帶隊征戰東亞杯

國足敲定臨時主帥,久爾杰維奇將帶隊征戰東亞杯

齊魯壹點
2025-06-18 11:12:15
王虹北大講課座無虛席!韋東奕聽課表情惹爭議,網友評價太扎心!

王虹北大講課座無虛席!韋東奕聽課表情惹爭議,網友評價太扎心!

古希臘掌管松餅的神
2025-06-17 20:00:39
2025-06-18 19:24:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
10027文章數 116772關注度
往期回顧 全部

科技要聞

別叫我互聯網公司,京東的野心藏不住了

頭條要聞

俄方稱朝鮮決定向俄羅斯追加派兵6000人 中方回應

頭條要聞

俄方稱朝鮮決定向俄羅斯追加派兵6000人 中方回應

體育要聞

高僧下山了!文班結束少林寺10日修行

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產

財經要聞

潘功勝李云澤吳清發聲 資本市場關鍵信號

汽車要聞

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產

態度原創

房產
旅游
家居
教育
時尚

房產要聞

創紀錄了!海南單日賣地44億!保利、方大瘋狂出手!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

溫暖明亮 三代同堂之家

教育要聞

五年級期末考試附加題,難,除了尖子生,都放棄了

鞋子選錯胖10斤?下半身胖可入這幾雙顯瘦神鞋

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 海口市| 监利县| 台前县| 海林市| 闸北区| 乌鲁木齐县| 和田市| 邢台市| 淮安市| 胶南市| 德江县| 临猗县| 麻栗坡县| 时尚| 隆子县| 武强县| 文成县| 上杭县| 巴中市| 荥阳市| 南充市| 英德市| 策勒县| 阿坝县| 西盟| 教育| 双城市| 苍梧县| 湘潭县| 东兴市| 溧阳市| 兰州市| 蛟河市| 大理市| 襄垣县| 古浪县| 东山县| 于田县| 孟村| 全州县| 昌黎县|