文章來源于新智元
剛剛,谷歌重磅發布首個混合推理模型——Gemini 2.5 Flash。
與 Claude 類似,新模型的「思考預算」可以自定義,即可開啟/關閉Gemini 2.5 的思考模式。
值得一提的是,關閉思考的成本直接暴降 600%,而且性能還不輸 Gemini 2.0 Flash。
具體來說,Gemini 2.5 Flash 關閉思考輸出價格 0.6 美元/百萬token,開啟思考輸出價格 3.5 美元/百萬token。
當然了,思考越久,模型性能也會隨之提升。
在 GPQA 知識問答中,新模型 24k 思考預算,性能提升了 6%;對于代碼任務(LiveCodeBench),16k 思考預算性能最佳。
在多項基準測試中,Gemini 2.5 Flash 再次刷新 SOTA。在大模型排行榜中,Flash預覽版以 1392 ELO 高分位居第二,與 GPT-4.5-preview、Grok 3 并駕齊驅。
在數學(AIME 2025/2024)、多模態推理(MMMU)、知識問答(GPQA)等基準上,Gemini 2.5 Flash 完全碾壓 Claude 3.7 Sonnet,足以與最新 o4-mini 相媲美。
就模型每百萬token輸入/輸出價格來看,Gemini 2.5 Flash 更具性價比。
在人類最后一次考試中,Gemini 2.5 Flash拿下12.1%高分,僅次于o4-mini
目前,Flash預覽版可以在 Gemini 中使用,API 同時向開發者開放。
Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~
進群之后,你有機會得到:
高濃度的主流模型(如 DeepSeek 等)開發交流;
資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;
好用、有趣的產品/案例,Founder Park 會主動做宣傳。
01
首款混合推理 Gemini 登場
擊敗Claude 3.7
混合推理模型,就是專為需要在性能、成本、延遲之間找到完美平衡的開發者而設計。
Gemini 2.5 Flash 不僅繼承了 2.0 Flash 的高速響應特點,還引入了革命性的「思考模式」——可根據任務需求靈活調整推理深度。
Gemini 2.5系是「思考模型」,能夠在回答前先行推理。
模型不會立即輸出結果,而是先執行「思考」流程,更好地理解提示詞,拆解復雜任務并規劃回答。
如下圖所示,相較于 2.0 Flash,Gemini 2.5 Flash 在復雜任務,如數學推理、科研分析中表現更優異。
在 LMArena 其他評估中,比如 Hard Prompts、編碼、長查詢,Gemini 2.5 Flash 全部拿下第一。
另外從下圖中可看出,在同類模型中,2.5 Flash 以超高性價比領跑,兼具最優性能和極低成本的優勢。
網友實測
在網友的實測中,2.5 Flash 物理模擬能力足夠驚艷,小球會隨著多邊形變化精準運動。
而且,2.5 Flash 還輕輕松松通過了 4o-mini/o3 無法通過的 Galton Board(高爾頓板)測試。
它還能根據精靈圖,創建出自定義游戲城房間。
另一位網友用了最大 24k 預算,讓 2.5 Flash 設計出了一個《創:戰紀》風格的游戲。
提示:Create Design a visually striking Tron-style game in a single HTML file, where AI-controlled light cycles compete in fast-paced, strategic battles against each other
如今 Claude 3.7 已經完全沒有優勢了,在設計登錄界面時,Gemini 2.5 Flash 用時最短速度最快。
02
思考預算
智能控制
不同使用場景在質量、成本與延遲之間各有取舍。
為給開發者更大靈活性,2.5 Flash 新增了「思考預算」功能。開發者可以通過設置預算(0 – 24576 Token),來控制模型在思考階段的推理深度。
低預算(甚至為0):適合簡單查詢,保持 2.0 Flash 超低延遲和成本,性能更強
高預算:模型會進行更深入的推理,生成更準確、全面的答案。
需要強調的是,預算只是設定了 2.5 Flash 的思考上限;若 prompt 并不復雜,模型不會用滿全部預算。
開發者也可通過API參數,或在Google AI Studio與Vertex AI控制臺的滑塊控件,為思考階段指定具體的Token預算
更智能的是,模型會根據 prompt 復雜度,自動判斷所需推理量和思考時間,避免了預算的浪費。
以下示例中,展示了 2.5 Flash 在默認模式下,可能使用的推理量。
· 需要低推理量的提示詞:
示例1:
「Thank you」的西班牙語表達
示例2:
加拿大有多少個省?
·需要中等推理量的提示詞:
示例1:
擲兩枚骰子,點數之和為7的概率是多少?
示例2:
我的健身房在周一、三、五9?15點以及周二、周六14?20點開放籃球自由場地。如果我每周工作5天、時間為9?18點,但想在工作日打5小時籃球,請為我制定一份可行的日程表。
· 需要高推理量的提示詞:
示例1:
一根懸臂梁,長度L=3 m,矩形截面寬b=0.1 m、高h=0.2 m,材質鋼 (E=200 GPa)。梁全長受均布載荷w=5 kN/m,且自由端承受集中載荷P=10 kN。請計算最大彎曲應力σ_max。
示例 2:
編寫函數evaluate_cells(cells: Dict[str, str]) -> Dict[str, float],用于計算電子表格單元格的數值。
每個單元格的內容可能為:
· 一個數字(如 「3」),或
· 一個公式,例如「=A1 + B1 * 2」,可使用「+、-、*、/」運算符并引用其他單元格。
要求:
1. 解析并解決單元格間的依賴關系。
2. 處理運算符優先級(*/高于+-)。
3. 檢測循環依賴并拋出 ValueError("Cycle detected at ")。
4. 不得使用eval(),只可使用Python內置庫。
03Gemini 2.5 Flash 正式上線
當前,Gemini 2.5 Flash預覽版 API 在 Google AI Studio 和 Vertex AI中上線,可通過 Gemini 應用專用下拉菜單找到它。
谷歌強烈建議嘗試 thinking_budget(思考預算)參數,看看可控推理如何去解決更復雜的問題。
內容參考:
https://developers.googleblog.com/en/start-building-with-gemini-25-flash/
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.