大數據文摘受權轉載自頭部科技
文丨丁靈波
繼昨天OpenAI發布o3和o4-mini出盡風頭之后,長期對線的老對手谷歌迅速做出回應。
今天,谷歌在AI Studio和Vertex AI的Gemini API中推出了Gemini 2.5 Flash早期預覽版模型,該版本基于2.0 Flash發展而來,在推理能力方面實現了重大升級,兼顧性能、速度和成本,并可根據需求控制模型推理的程度。
盡管o3和o4-mini模型在主流評測排行榜上表現著實好,但有一個很突出的缺點:貴,這給了谷歌很大的市場進擊空間。
Gemini 2.5 Flash是一個混合推理模型,可讓開發者開啟或關閉“思考”功能,還允許開發者設定“思考預算”,以在質量、成本和延遲之間找到適合自己需求的平衡點,而即使關閉“思考”,官方宣稱也能保持2.0 Flash的快速運行速度和性能。
使用Gemini 2.5 Flash時,開發者每百萬個代幣的輸入成本為0.15美元,輸出成本則根據推理設置而不同:啟用思考時為每百萬個代幣3.50美元,而關閉思考功能每百萬個代幣僅為0.60美元,接棒DeepSeek在行業中殺出了一條更高的性價比路線。
可靈活控制“思考”預算
開啟和關閉“思考”近六倍的差價反映了當下模型推理過程的計算強度差異,谷歌引入所謂的“思考預算”機制,旨在解決當今AI市場的一個根本矛盾:更復雜的推理模型通常以更高的延遲和更高的價格為代價。
Gemini 2.5 Flash會根據具體任務的復雜性智能計算出要使用多少思考預算,如果開發者想在保持最低成本和延遲的同時,仍能提升2.0 Flash的性能,可為思考階段設置特定的預算,預算范圍為0到24576個token,隨著思考預算的增加,推理質量得到提高,讓開發者靈活掌握對質量和成本的細粒度調整。
在一些關鍵基準測試中,Gemini 2.5 Flash展現出頗具競爭力的性能優勢,同時保持了比其他同類產品更小的模型規模。
例如在“人類的最后考試”(高難度推理與通用智力測試)中,Gemini 2.5 Flash的得分為12.1%,優于Anthropic的Claude 3.7 Sonnet(8.9%)和DeepSeek R1(8.6%),略低于OpenAI剛推出的o4-mini(14.3%)。
在GPQA Diamond(研究生水平的專家推理測試)中,Gemini 2.5 Flash得分78.3%,高于DeepSeek R1(71.5%),和Claude 3.7 Sonnet旗鼓相當。
在LiveCodeBench V5評測中,Gemini 2.5 Flash代碼相關能力與上代2.0版本相比實現了翻倍提升,接近DeepSeek R1的水平。
谷歌AI Studio負責人Logan Kilpatrick表示該模型編碼進展超快,后續還有更多精彩升級推出。
今天,除了發布Gemini 2.5 Flash之外,谷歌還宣布所有美國大學生在2026年春季之前都可以免費使用Gemini Advanced,分析師將此舉解讀為谷歌正在努力提高未來AI人才對Gemini平臺的忠誠度,目光已經著眼滲透下一代市場。
不是最強,但便宜好用
一些網友對Gemini 2.5 Flash測試后認為,Flash的持續迭代可能會是AI行業的全新轉折點——模型將會變得快速、智能、價格實惠,如果谷歌繼續保持這種性價比競爭勢頭,接下來的人工智能競賽將會變得更加有趣。
除了能勝任常見的旋轉框彈跳小球的測試,該模型甚至還幫用戶完成了更復雜的編碼挑戰。
例如提示模型使用JavaScript和2D物理引擎模擬分5步創建一個獨立的HTML文件,直觀地演示多個球穿過樁子并收集到箱中時,正態分布(或二項分布)的形成過程,確保物理參數(恢復、摩擦力、密度)和球的落球率經過調整,以便流暢清晰地演示分布。
有網友使用Gemini 2.5 Flash構建MCP AI代理,模型僅用30行Python代碼就搭建了起來,可訪問AirBnB和Google Maps。
還能幫助開發者輕松搞定一個網頁小游戲開發,綜合來看,雖然價格便宜,但谷歌沒有太減配,Gemini 2.5 Flash編碼能力的可用性和實用性都還不錯。
有開發者對當前頂尖模型性能進行了所有基準測試,提供了更寬泛的視角,將Gemini 2.5 Flash添加到了對戰列表與o3、o4-mini、Sonnet 3.7、o1、DeepSeek R1等進行比較。
經過一番對比,目前的結論如下,谷歌Gemini 2.5系列模型的市場競爭優勢比較全面:
代碼編輯:Gemini 2.5 Pro、o3
智能體編程(自主性編程):Sonnet 3.7、o3
長文本上下文處理:Gemini 2.5 Pro、o3
多模態推理:Gemini 2.5 Pro、o3
數學、科學領域:o4-mini、o3、Gemini 2.5 Pro
成本效益:Gemini 2.5 Flash、DeepSeek R1
性價比大戰暗流涌動
為了應對谷歌掀起的新一輪性價比大戰,OpenAI今天悄悄針對o3和o4-mini型號推出了彈性處理(Flex processing)API選項,目前正處于測試階段。
Flex處理可顯著降低成本,代價是響應時間較慢且偶爾會出現資源不可用的情況,但它非常適合非生產或低優先級任務,例如模型評估、數據豐富或異步工作負載等。
從價格來看,經過Flex處理能將API成本可以降低整整一半。例如針對o3,Flex處理費用為每百萬輸入tokens為5美元,每百萬輸出tokens為20 美元,而標準處理費用為每百萬輸入tokens為10美元,每百萬輸出tokens達40美元。
Flex處理的推出,正值前沿人工智能價格持續攀升,而競爭對手紛紛推出更廉價、更高效的經濟型模型之際,盡管OpenAI依靠o3和o4-mini再次取得了領先同行的模型優勢,但遠高于同行的高昂定價一直是最大的槽點,如果模型的實際表現差不多,而價格差太多,很可能把用戶拱手送給老對手谷歌,這是OpenAI不愿看到的局面。
另外,新一輪頂尖模型的PK較量,正在一步步拉開模型之間的性能代差,無論是谷歌還是OpenAI都有著充足的AI算力保障,競爭處境最艱難的便是DeepSeek,特朗普政府本周采取行動,開始限制英偉達向中國出售H20等AI芯片,據紐約時報報道稱,特朗普政府還在考慮進一步采取措施,阻止DeepSeek購買美國技術,并正在討論禁止美國人使用其服務。
作為OpenAI和谷歌都難以忽視的對手,開源性價比之王DeepSeek能否沖破枷鎖給市場帶來新的驚喜和奇跡,很多開發者都在默默期待著。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.