99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

谷歌首個混合推理模型Gemini 2.5 Flash:性能與o4-mini相媲美、可靈活控制「思考預算」

0
分享至

文章來源于新智元

剛剛,谷歌重磅發布首個混合推理模型——Gemini 2.5 Flash。

與 Claude 類似,新模型的「思考預算」可以自定義,即可開啟/關閉Gemini 2.5 的思考模式。


值得一提的是,關閉思考的成本直接暴降 600%,而且性能還不輸 Gemini 2.0 Flash。

具體來說,Gemini 2.5 Flash 關閉思考輸出價格 0.6 美元/百萬token,開啟思考輸出價格 3.5 美元/百萬token。


當然了,思考越久,模型性能也會隨之提升。

在 GPQA 知識問答中,新模型 24k 思考預算,性能提升了 6%;對于代碼任務(LiveCodeBench),16k 思考預算性能最佳。



在多項基準測試中,Gemini 2.5 Flash 再次刷新 SOTA。在大模型排行榜中,Flash預覽版以 1392 ELO 高分位居第二,與 GPT-4.5-preview、Grok 3 并駕齊驅。


在數學(AIME 2025/2024)、多模態推理(MMMU)、知識問答(GPQA)等基準上,Gemini 2.5 Flash 完全碾壓 Claude 3.7 Sonnet,足以與最新 o4-mini 相媲美。

就模型每百萬token輸入/輸出價格來看,Gemini 2.5 Flash 更具性價比。


在人類最后一次考試中,Gemini 2.5 Flash拿下12.1%高分,僅次于o4-mini

目前,Flash預覽版可以在 Gemini 中使用,API 同時向開發者開放。

Founder Park 正在搭建開發者社群,邀請積極嘗試、測試新模型、新技術的開發者、創業者們加入,請掃碼詳細填寫你的產品/項目信息,通過審核后工作人員會拉你入群~


進群之后,你有機會得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;

  • 好用、有趣的產品/案例,Founder Park 會主動做宣傳。

01

首款混合推理 Gemini 登場

擊敗Claude 3.7

混合推理模型,就是專為需要在性能、成本、延遲之間找到完美平衡的開發者而設計。

Gemini 2.5 Flash 不僅繼承了 2.0 Flash 的高速響應特點,還引入了革命性的「思考模式」——可根據任務需求靈活調整推理深度。


Gemini 2.5系是「思考模型」,能夠在回答前先行推理。

模型不會立即輸出結果,而是先執行「思考」流程,更好地理解提示詞,拆解復雜任務并規劃回答。

如下圖所示,相較于 2.0 Flash,Gemini 2.5 Flash 在復雜任務,如數學推理、科研分析中表現更優異。


在 LMArena 其他評估中,比如 Hard Prompts、編碼、長查詢,Gemini 2.5 Flash 全部拿下第一。


另外從下圖中可看出,在同類模型中,2.5 Flash 以超高性價比領跑,兼具最優性能和極低成本的優勢。


網友實測

在網友的實測中,2.5 Flash 物理模擬能力足夠驚艷,小球會隨著多邊形變化精準運動。



而且,2.5 Flash 還輕輕松松通過了 4o-mini/o3 無法通過的 Galton Board(高爾頓板)測試。



它還能根據精靈圖,創建出自定義游戲城房間。


另一位網友用了最大 24k 預算,讓 2.5 Flash 設計出了一個《創:戰紀》風格的游戲。


提示:Create Design a visually striking Tron-style game in a single HTML file, where AI-controlled light cycles compete in fast-paced, strategic battles against each other

如今 Claude 3.7 已經完全沒有優勢了,在設計登錄界面時,Gemini 2.5 Flash 用時最短速度最快。



02

思考預算

智能控制

不同使用場景在質量、成本與延遲之間各有取舍。

為給開發者更大靈活性,2.5 Flash 新增了「思考預算」功能。開發者可以通過設置預算(0 – 24576 Token),來控制模型在思考階段的推理深度。

  • 低預算(甚至為0):適合簡單查詢,保持 2.0 Flash 超低延遲和成本,性能更強

  • 高預算:模型會進行更深入的推理,生成更準確、全面的答案。

需要強調的是,預算只是設定了 2.5 Flash 的思考上限;若 prompt 并不復雜,模型不會用滿全部預算。


開發者也可通過API參數,或在Google AI Studio與Vertex AI控制臺的滑塊控件,為思考階段指定具體的Token預算

更智能的是,模型會根據 prompt 復雜度,自動判斷所需推理量和思考時間,避免了預算的浪費。

以下示例中,展示了 2.5 Flash 在默認模式下,可能使用的推理量。

· 需要低推理量的提示詞:

示例1:

「Thank you」的西班牙語表達

示例2:

加拿大有多少個省?

·需要中等推理量的提示詞:

示例1:

擲兩枚骰子,點數之和為7的概率是多少?

示例2:

我的健身房在周一、三、五9?15點以及周二、周六14?20點開放籃球自由場地。如果我每周工作5天、時間為9?18點,但想在工作日打5小時籃球,請為我制定一份可行的日程表。

· 需要高推理量的提示詞:

示例1:

一根懸臂梁,長度L=3 m,矩形截面寬b=0.1 m、高h=0.2 m,材質鋼 (E=200 GPa)。梁全長受均布載荷w=5 kN/m,且自由端承受集中載荷P=10 kN。請計算最大彎曲應力σ_max。

示例 2:

編寫函數evaluate_cells(cells: Dict[str, str]) -> Dict[str, float],用于計算電子表格單元格的數值。

每個單元格的內容可能為:

· 一個數字(如 「3」),或

· 一個公式,例如「=A1 + B1 * 2」,可使用「+、-、*、/」運算符并引用其他單元格。

要求:

1. 解析并解決單元格間的依賴關系。

2. 處理運算符優先級(*/高于+-)。

3. 檢測循環依賴并拋出 ValueError("Cycle detected at ")。

4. 不得使用eval(),只可使用Python內置庫。


03Gemini 2.5 Flash 正式上線

當前,Gemini 2.5 Flash預覽版 API 在 Google AI Studio 和 Vertex AI中上線,可通過 Gemini 應用專用下拉菜單找到它。

谷歌強烈建議嘗試 thinking_budget(思考預算)參數,看看可控推理如何去解決更復雜的問題。



內容參考:

https://developers.googleblog.com/en/start-building-with-gemini-25-flash/


轉載原創文章請添加微信:founderparker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
事發突然,比亞迪大量車型突然開始大降價,降幅高達34%

事發突然,比亞迪大量車型突然開始大降價,降幅高達34%

流蘇晚晴
2025-05-29 18:54:41
1959年,彭德懷搬離中南海,毛主席得知后吩咐楊尚昆:你去辦件事

1959年,彭德懷搬離中南海,毛主席得知后吩咐楊尚昆:你去辦件事

簡史檔案館
2023-12-04 10:51:46
微軟把蘇州員工騙到西雅圖,不到一年瘋狂裁員,美國法:沒有補償

微軟把蘇州員工騙到西雅圖,不到一年瘋狂裁員,美國法:沒有補償

社會醬
2025-05-29 17:05:42
曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

南方都市報
2025-05-29 21:24:24
美歐談崩,特朗普給了歐盟兩條路:要么對中國加稅,要么被美加稅

美歐談崩,特朗普給了歐盟兩條路:要么對中國加稅,要么被美加稅

袁周院長
2025-05-29 10:16:55
美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

美國終于動手,27萬中國學生,將被陸續遣返,中方警告兩大后果

阿傖說事
2025-05-29 16:03:16
轟轟烈烈上任,冷冷清清離開!馬斯克128天白宮行,臨別時特朗普無回應

轟轟烈烈上任,冷冷清清離開!馬斯克128天白宮行,臨別時特朗普無回應

紅星新聞
2025-05-29 18:03:21
央視放大招,首次向全世界展示,最先進光刻機!

央視放大招,首次向全世界展示,最先進光刻機!

阿傖說事
2025-05-29 07:37:36
湖北應城通報一起故意傷害案件:2人死亡,55歲嫌疑人已被控制

湖北應城通報一起故意傷害案件:2人死亡,55歲嫌疑人已被控制

紅星新聞
2025-05-29 12:51:06
19歲女生哭泣照被“高潮針”廣告盜用最新進展:相關涉黃網站永久關閉

19歲女生哭泣照被“高潮針”廣告盜用最新進展:相關涉黃網站永久關閉

極目新聞
2025-05-29 20:48:31
深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

今天說故事
2025-05-28 14:49:59
86票贊成,美國得州通過新法案,不許中國等外國人在美買房買地

86票贊成,美國得州通過新法案,不許中國等外國人在美買房買地

南權先生
2025-05-29 13:47:51
公職人員下班后聚餐算違紀嗎?中紀委給出明確標準

公職人員下班后聚餐算違紀嗎?中紀委給出明確標準

戶外小阿隋
2025-05-29 10:16:20
上市即巔峰,連續43個跌停,從106跌到0.06,里面散戶全線被套!

上市即巔峰,連續43個跌停,從106跌到0.06,里面散戶全線被套!

財經市界
2025-05-29 08:54:16
《色即是空》女主河智苑被偶遇,身材好到爆人又漂亮,46歲如少女

《色即是空》女主河智苑被偶遇,身材好到爆人又漂亮,46歲如少女

叨嘮
2025-05-28 19:42:24
總統拒絕下臺,28萬菲軍作出選擇,馬科斯用7個字判老杜“死刑”

總統拒絕下臺,28萬菲軍作出選擇,馬科斯用7個字判老杜“死刑”

聞識
2025-05-29 15:58:59
兩位正部級,黃明、王榮有新身份,曾長期在江蘇工作

兩位正部級,黃明、王榮有新身份,曾長期在江蘇工作

揚子晚報
2025-05-29 17:32:25
腦梗去世的人越來越多?醫生勸告:天熱寧可打麻將,也別做4件事

腦梗去世的人越來越多?醫生勸告:天熱寧可打麻將,也別做4件事

華庭講美食
2025-05-29 08:52:24
國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

上觀新聞
2025-05-29 18:06:09
24歲外甥強奸31歲舅媽,其父親索賠8千巨款賠償說:他還是個處男

24歲外甥強奸31歲舅媽,其父親索賠8千巨款賠償說:他還是個處男

胖胖侃咖
2025-05-28 08:00:18
2025-05-29 22:07:00
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
762文章數 133關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

換上高爾夫GTI同款2.0T動力 新凌渡L GTS實車曝光

態度原創

本地
藝術
房產
數碼
公開課

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

清盤倒計時!這個天河芯紅盤,贏的不止多一點!

數碼要聞

vivo TWS Air3 半入耳無線耳機發布,售價 99 元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 北票市| 栾城县| 宜兰市| 襄樊市| 商水县| 白山市| 河北省| 邵东县| 时尚| 宕昌县| 泰顺县| 洛扎县| 枞阳县| 百色市| 康定县| 金秀| 舒兰市| 石首市| 沙坪坝区| 都安| 达日县| 玉屏| 陵川县| 梨树县| 大兴区| 松江区| 金乡县| 宁陕县| 米泉市| 山丹县| 绥德县| 尼勒克县| 北川| 乐至县| 贵定县| 阿坝| 防城港市| 威远县| 阳江市| 红安县| 永嘉县|