網易首頁 > 網易號 > 正文申請入駐

Gemini 2.5 Flash 推出 “思考預算” 調低時可降低 AI 成本 600%

2025-04-19 00:18:23　來源: 至頂頭條

北京舉報

分享至

Google 今天推出了 Gemini 2.5 Flash，這是一款重要升級的 AI 產品，賦予企業和開發人員前所未有的掌控權，可以指定 AI 執行“思考”過程的程度。該新模型已通過 Google AI Studio 和 Vertex AI 以預覽版形式發布，代表了 Google 在競爭愈發激烈的 AI 市場中，一邊提升推理能力、一邊保持具有競爭力的定價策略的戰略努力。

該模型引入了 Google 所稱的“思考預算”，這是一種機制，允許開發人員設定在生成回答前，分配多少計算資源用于處理復雜問題的推理。其做法旨在解決當前 AI 市場中的根本性矛盾：更高級的推理通常會帶來更高的延遲和費用。

Google DeepMind Gemini 模型產品總監 Tulsee Doshi 在接受 VentureBeat 獨家采訪時表示：“我們知道成本和延遲對于許多開發人員的用例來說至關重要，因此我們希望為開發人員提供靈活性，可根據他們的需求調節模型的思考幅度。”

這種靈活性展現了 Google 在 AI 部署方面的務實方法，因為該技術正日益嵌入那些對成本可預測性要求極高的企業應用中。通過允許關閉或開啟思考功能，Google 創造了其所謂的“首個完全混合推理模型”。

付費只為您所需的“腦力”：Google 新 AI 定價模型解析

新的定價結構突顯了當前 AI 系統中推理的成本。在使用 Gemini 2.5 Flash 時，開發人員對于輸入 Token 的費用為每百萬 Token 0.15 美元。而輸出費用則根據推理設置大幅變化：若關閉思考，則為每百萬 Token 0.60 美元；若啟用推理，則跳升至每百萬 Token 3.50 美元。

這一近 6 倍的費用差異反映了“思考”過程計算負載之高，該過程中模型在生成回答前會評估多種可能性和考量因素。

Doshi 告訴 VentureBeat：“客戶為模型所生成的任何思考和輸出 Token 付費。在 AI Studio 的用戶體驗界面中，你可以在得到回答前看到這些思考過程。在 API 中，目前我們不提供查看思考過程的功能，但開發者可以看到生成的 Token 數量。”

思考預算可以在 0 至 24,576 Token 之間調整，其作用是作為上限而非固定分配。Google 表示，該模型會根據任務的復雜性智能決定使用多少預算，在不需要復雜推理時可節省資源。

Gemini 2.5 Flash 的表現如何：與領先 AI 模型的基準測試結果對比

Google 稱，Gemini 2.5 Flash 在主要基準測試中展現了具有競爭力的表現，而且其模型規模比其他方案更小。在 Humanity’s Last Exam——一項旨在評估推理和知識的嚴格測試中，2.5 Flash 得分為 12.1%，表現超過 Anthropic 的 Claude 3.7 Sonnet（8.9%）和 DeepSeek R1（8.6%），盡管略遜于 OpenAI 最近推出的 o4-mini（14.3%）。

該模型在諸如 GPQA diamond（78.3%）和 AIME 數學考試（2025 年測試成績 78.0%，2024 年測試成績 88.0%）等技術基準測試上也取得了強勁成績。

Doshi 表示：“企業應選擇 2.5 Flash，因為它在成本和速度上提供了最優性價比。它在數學、多模態推理、長上下文處理等多個關鍵指標上相對于競爭對手表現尤為突出。”

業界分析師指出，這些基準測試結果表明 Google 正在縮小與競爭對手之間的性能差距，同時保持定價優勢——這一策略可能會受到那些關注 AI 預算的企業客戶的青睞。

智能與迅捷：何時需要讓您的 AI 深度思考？

可調節的推理功能代表了企業部署 AI 模型的一大進化。傳統模型往往讓用戶對模型內部的推理過程幾乎毫無可見性或控制權。

Google 的方法允許開發人員針對不同場景進行優化。對于諸如語言翻譯或基礎信息檢索等簡單查詢，可以通過禁用思考來實現最大成本效益；而對于需要多步推理的復雜任務，如數學問題求解或細致分析，則可以啟用并細化思考功能。

一個關鍵的創新點在于該模型能夠根據查詢內容自動判斷適當的推理深度。Google 舉例說明：一個簡單問題比如“加拿大有幾個省？”只需極少量推理，而關于梁應力計算的復雜工程問題則會自動調用更深層次的思考過程。

Doshi 介紹說：“將思考功能整合到我們主線 Gemini 模型中，再加上全面的改進，使得答案質量得以提升。這些改進在包括評估事實性指標的 SimpleQA 在內的學術基準測試中均有體現。”

Google 的 AI 周：免費學生使用權和視頻生成功能伴隨 2.5 Flash 同步發布

Gemini 2.5 Flash 的發布正值 Google 在 AI 領域采取多項激進舉措的一周內。周一，Google 向 Gemini Advanced 用戶推出了 Veo 2 視頻生成功能，允許用戶將文本提示轉換為八秒的視頻剪輯。今天，在發布 2.5 Flash 的同時，Google 宣布所有美國大學生將獲得免費使用 Gemini Advanced 的權利，直至 2026 年春季——分析師將此舉視為圍繞未來知識工作者建立忠誠度的努力。

這些公告反映了 Google 的多管齊下策略，以期在由 OpenAI 的 ChatGPT 主導的市場中競爭。據第三方分析，ChatGPT 每周活躍用戶超過 8 億，而 Gemini 估計月活躍用戶約為 2.5 到 2.75 億。

憑借對成本效率和性能自定義的明確關注，2.5 Flash 模型似乎專為那些需要精細管理 AI 部署成本同時又要求高端能力的企業客戶而設計。

Doshi 表示：“我們非常期待開發人員就他們基于 Gemini Flash 2.5 構建的應用以及如何使用思考預算提供反饋。”

預覽之外：Gemini 2.5 Flash 成熟后企業可期望的功能

盡管此次發布處于預覽階段，該模型已供開發人員開始構建應用使用，但 Google 尚未明確何時普遍可用。公司表示將根據開發者在預覽階段的反饋，繼續完善這項動態的思考能力。

對于企業 AI 用戶來說，此次發布提供了試驗更細致 AI 部署方式的機會，有可能在高風險任務上配置更多計算資源，同時在常規應用中節約成本。

該模型也通過 Gemini 應用面向消費者提供，在模型下拉選單中顯示為“2.5 Flash (Experimental)”，取代了之前的 2.0 Thinking (Experimental) 選項。這種面向消費者的部署表明，Google 正借助應用生態系統收集關于其推理架構的更廣泛反饋。

隨著 AI 越來越深入地嵌入企業工作流程中，Google 采用可自定義推理的方式反映了一個日趨成熟的市場，在該市場中成本優化和性能調優的重要性正逐步與原始能力并駕齊驅——這預示著生成式 AI 技術商業化的新階段。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.