網易首頁 > 網易號 > 正文申請入駐

靠性價比狙擊OpenAI！谷歌上線Gemini 2.5 Flash，關閉“思考”成本可降600%

2025-04-19 12:08:05　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自頭部科技

文丨丁靈波

繼昨天OpenAI發布o3和o4-mini出盡風頭之后，長期對線的老對手谷歌迅速做出回應。

今天，谷歌在AI Studio和Vertex AI的Gemini API中推出了Gemini 2.5 Flash早期預覽版模型，該版本基于2.0 Flash發展而來，在推理能力方面實現了重大升級，兼顧性能、速度和成本，并可根據需求控制模型推理的程度。

盡管o3和o4-mini模型在主流評測排行榜上表現著實好，但有一個很突出的缺點：貴，這給了谷歌很大的市場進擊空間。

Gemini 2.5 Flash是一個混合推理模型，可讓開發者開啟或關閉“思考”功能，還允許開發者設定“思考預算”，以在質量、成本和延遲之間找到適合自己需求的平衡點，而即使關閉“思考”，官方宣稱也能保持2.0 Flash的快速運行速度和性能。

使用Gemini 2.5 Flash時，開發者每百萬個代幣的輸入成本為0.15美元，輸出成本則根據推理設置而不同：啟用思考時為每百萬個代幣3.50美元，而關閉思考功能每百萬個代幣僅為0.60美元，接棒DeepSeek在行業中殺出了一條更高的性價比路線。

可靈活控制“思考”預算

開啟和關閉“思考”近六倍的差價反映了當下模型推理過程的計算強度差異，谷歌引入所謂的“思考預算”機制，旨在解決當今AI市場的一個根本矛盾：更復雜的推理模型通常以更高的延遲和更高的價格為代價。

Gemini 2.5 Flash會根據具體任務的復雜性智能計算出要使用多少思考預算，如果開發者想在保持最低成本和延遲的同時，仍能提升2.0 Flash的性能，可為思考階段設置特定的預算，預算范圍為0到24576個token，隨著思考預算的增加，推理質量得到提高，讓開發者靈活掌握對質量和成本的細粒度調整。

在一些關鍵基準測試中，Gemini 2.5 Flash展現出頗具競爭力的性能優勢，同時保持了比其他同類產品更小的模型規模。

例如在“人類的最后考試”（高難度推理與通用智力測試）中，Gemini 2.5 Flash的得分為12.1%，優于Anthropic的Claude 3.7 Sonnet（8.9%）和DeepSeek R1（8.6%），略低于OpenAI剛推出的o4-mini（14.3%）。

在GPQA Diamond（研究生水平的專家推理測試）中，Gemini 2.5 Flash得分78.3%，高于DeepSeek R1（71.5%），和Claude 3.7 Sonnet旗鼓相當。

在LiveCodeBench V5評測中，Gemini 2.5 Flash代碼相關能力與上代2.0版本相比實現了翻倍提升，接近DeepSeek R1的水平。

谷歌AI Studio負責人Logan Kilpatrick表示該模型編碼進展超快，后續還有更多精彩升級推出。

今天，除了發布Gemini 2.5 Flash之外，谷歌還宣布所有美國大學生在2026年春季之前都可以免費使用Gemini Advanced，分析師將此舉解讀為谷歌正在努力提高未來AI人才對Gemini平臺的忠誠度，目光已經著眼滲透下一代市場。

不是最強，但便宜好用

一些網友對Gemini 2.5 Flash測試后認為，Flash的持續迭代可能會是AI行業的全新轉折點——模型將會變得快速、智能、價格實惠，如果谷歌繼續保持這種性價比競爭勢頭，接下來的人工智能競賽將會變得更加有趣。

除了能勝任常見的旋轉框彈跳小球的測試，該模型甚至還幫用戶完成了更復雜的編碼挑戰。

例如提示模型使用JavaScript和2D物理引擎模擬分5步創建一個獨立的HTML文件，直觀地演示多個球穿過樁子并收集到箱中時，正態分布（或二項分布）的形成過程，確保物理參數（恢復、摩擦力、密度）和球的落球率經過調整，以便流暢清晰地演示分布。

有網友使用Gemini 2.5 Flash構建MCP AI代理，模型僅用30行Python代碼就搭建了起來，可訪問AirBnB和Google Maps。

還能幫助開發者輕松搞定一個網頁小游戲開發，綜合來看，雖然價格便宜，但谷歌沒有太減配，Gemini 2.5 Flash編碼能力的可用性和實用性都還不錯。

有開發者對當前頂尖模型性能進行了所有基準測試，提供了更寬泛的視角，將Gemini 2.5 Flash添加到了對戰列表與o3、o4-mini、Sonnet 3.7、o1、DeepSeek R1等進行比較。

經過一番對比，目前的結論如下，谷歌Gemini 2.5系列模型的市場競爭優勢比較全面：

代碼編輯：Gemini 2.5 Pro、o3

智能體編程（自主性編程）：Sonnet 3.7、o3

長文本上下文處理：Gemini 2.5 Pro、o3

多模態推理：Gemini 2.5 Pro、o3

數學、科學領域：o4-mini、o3、Gemini 2.5 Pro

成本效益：Gemini 2.5 Flash、DeepSeek R1

性價比大戰暗流涌動

為了應對谷歌掀起的新一輪性價比大戰，OpenAI今天悄悄針對o3和o4-mini型號推出了彈性處理（Flex processing）API選項，目前正處于測試階段。

Flex處理可顯著降低成本，代價是響應時間較慢且偶爾會出現資源不可用的情況，但它非常適合非生產或低優先級任務，例如模型評估、數據豐富或異步工作負載等。

從價格來看，經過Flex處理能將API成本可以降低整整一半。例如針對o3，Flex處理費用為每百萬輸入tokens為5美元，每百萬輸出tokens為20 美元，而標準處理費用為每百萬輸入tokens為10美元，每百萬輸出tokens達40美元。

Flex處理的推出，正值前沿人工智能價格持續攀升，而競爭對手紛紛推出更廉價、更高效的經濟型模型之際，盡管OpenAI依靠o3和o4-mini再次取得了領先同行的模型優勢，但遠高于同行的高昂定價一直是最大的槽點，如果模型的實際表現差不多，而價格差太多，很可能把用戶拱手送給老對手谷歌，這是OpenAI不愿看到的局面。

另外，新一輪頂尖模型的PK較量，正在一步步拉開模型之間的性能代差，無論是谷歌還是OpenAI都有著充足的AI算力保障，競爭處境最艱難的便是DeepSeek，特朗普政府本周采取行動，開始限制英偉達向中國出售H20等AI芯片，據紐約時報報道稱，特朗普政府還在考慮進一步采取措施，阻止DeepSeek購買美國技術，并正在討論禁止美國人使用其服務。

作為OpenAI和谷歌都難以忽視的對手，開源性價比之王DeepSeek能否沖破枷鎖給市場帶來新的驚喜和奇跡，很多開發者都在默默期待著。

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級計費，平均節省開支30%以上！

掃碼了解詳情?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.