99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

一個超強的推理增強大模型,開源了,本地部署

0
分享至


大家好,我是 Ai 學習的老章

前幾天介紹了

今天一起看看 Mistral 最新開源的推理大模型——Magistral


Magistral 簡介

Mistral 公司推出了首個推理模型 Magistral 及自研可擴展強化學習 (RL) 流程。團隊采用自下而上的方法,完全基于自有模型和基礎設施構建,不依賴現有實現或其他模型的 RL 軌跡。


Magistral 強化編碼與開發用例:相比非推理模型,它通過涉及外部工具或 API 的序列化多步驟操作,顯著提升項目規劃、后端架構、前端設計和數據工程能力。

Mistral 的技術棧探索了純 RL 訓練大語言模型的極限,開發出強制模型使用特定推理語言的方法,并證實僅用文本數據的強化學習能保持初始模型大部分能力。這種方法還能維持或提升多模態、指令遵循和函數調用能力。


1. 純強化學習訓練:從頭開始通過強化學習(RL only)訓練的 Mistral Small 24B

2.推理軌跡微調:基于 Magistral Medium 生成的推理軌跡微調的 Mistral Small 24B

3.最終版 Magistral Small:在 Magistral Medium 軌跡微調基礎上進一步強化學習優化的 Mistral Small 24B

設計理念是像人類一樣縝密思考,同時具備跨專業領域的知識儲備、可追蹤驗證的透明推理流程,以及深度的多語言適應能力。
Magistral 特性
  • 與通用模型不同,Magistral 針對多步邏輯進行了微調,提高了可解釋性,并以用戶語言提供可追溯的思維過程。

  • Magistral 基于 Mistral Small 3.1(2503)構建,增強了推理能力

  • Magistral 提供兩種版本:Magistral Small(240 億參數開源版),Magistral Medium(企業版)

  • Magistral Small 融合了來自 Magistral Medium 的冷啟動數據

  • Magistral Small 參數量 24B, 可本地部署,量化后能適配單張 RTX 4090 顯卡或 32GB 內存的 MacBook

  • Magistral 上下文窗口 128k , 但超過40k后性能可能下降,官方建議將模型最大長度設置為 40k

Magistral 測評數據

Magistral Medium只用 24B 參數秒殺DeepSeek-V3,某些領域 (GPQA Diamond) 可以和DeepSeek-R1掰手腕,不過應該是舊版 R1,如果跟 R1-0528 比,那還是差這檔次呢

Mistral 也雞賊,拿去刷榜的是企業版 (Medium),開源版數據就沒那么全了

注:GPQA Diamond是 GPQA 數據集的子集。GPQA 數據集包含 448 道由生物學、物理學和化學領域專家編寫的高質量選擇題,而 Diamond 子集是其中質量最高的部分,包含 198 條結果,其選取的是兩個專家均答對且至少 2/3 非專家答錯的問題,這些問題具有很高的難度。



Model

AIME24 pass@1

AIME25 pass@1

GPQA Diamond

Livecodebench (v5)

Magistral Medium 模型

73.59%

64.95%

70.83%

59.36%

Magistral Small 模型

70.68%

62.76%

68.18%

55.84%

MediumSmall強了 2 個百分點的樣子


另:看論文中,Magistral對中文相對沒那么友好,畢竟法國公司。不過拿去寫代碼應該問題不大,Livecodebench (v5)上強于V3一大截

Magistral Small 部署

截至發文modelscope.com尚未更新模型文件,網絡不佳的同學可以坐等一下:https://www.modelscope.cn/models/mistralai/

網絡暢通就去huggingface:https://huggingface.co/mistralai/Magistral-Small-2506


模型文件 50GB,感覺至少需要 4 張 4090 才能啟動

啟動模型:

# 需要升級到最新版: pip install -U vllm --extra-index-url [https://wheels.vllm.ai/0.9.1rc1](https://t.co/kuf2vI0hva "https://wheels.vllm.ai/0.9.1rc1") --torch-backend=auto vllm serve mistralai/Magistral-Small-2506 --tokenizer_mode mistral --config_format mistral --load_format mistral --tool-call-parser mistral --enable-auto-tool-choice --tensor-parallel-size 2

量化版對顯卡的要求至少可以打個對折起步

比如Ollama上量化后模型文件只有14GB


Magistral量化版匯總:

  • `llama.cpp` [1] : https://huggingface.co/mistralai/Magistral-Small-2506_gguf [2]

  • `lmstudio`(llama.cpp, MLX) [3] : https://lmstudio.ai/models/mistralai/magistral-small [4]

  • `ollama` (llama.cpp) [5] : https://ollama.com/library/magistral [6]

  • `unsloth` (llama.cpp) [7] : https://huggingface.co/unsloth/Magistral-Small-2506-GGUF [8]

Magistral 使用

官方有該模型的最佳參數:

  • top_p: 0.95

  • temperature: 0.7

  • max_tokens: 40960

我在論文中還看到了史上最簡潔的系統提示詞

A user will ask you to solve a task. You should first draft your thinking process (inner monologue) until you have derived the final answer. Afterwards, write a self-contained summary of your thoughts (i.e. your summary should be succinct but contain all the critical steps you needed to reach the conclusion). You should use Markdown and Latex to format your response. Write both your thoughts and summary in the same language as the task posed by the user. Your thinking process must follow the template below: 

 Your thoughts or/and draft, like working through an exercise on scratch paper. Be as casual and as long as you want until you are confident to generate a correct answer. think> Here, provide a concise summary that reflects your reasoning and presents a clear final answer to the user. Problem: {problem}

雖然簡介,但是也包括了一個系統提示詞的所有結構:

  1. 雙階段思考

  • 第一階段:要求模型在Thought Process標簽內進行詳細的思考過程(內部獨白)

  • 第二階段:在標簽外提供簡潔但完整的總結和最終答案

思考可見化

  • 這種設計讓用戶能夠看到模型的"思考過程",增加透明度

  • 類似于"思考鏈"(Chain-of-Thought) 提示技術,但更加結構化

格式要求

  • 要求使用 Markdown 和 LaTeX 進行格式化,適合數學和科學問題的展示

  • 強調結構化輸出,使回答更加清晰易讀

語言適應

  • 要求模型使用與用戶提問相同的語言回答,增強用戶體驗

問題占位符:{problem}是一個占位符,將被實際問題替換

最后就是官方建議的聊天模板:

[SYSTEM_PROMPT]system_prompt A user will ask you to solve a task. You should first draft your thinking process (inner monologue) until you have derived the final answer. Afterwards, write a self-contained summary of your thoughts (i.e. your summary should be succinct but contain all the critical steps you needed to reach the conclusion). You should use Markdown to format your response. Write both your thoughts and summary in the same language as the task posed by the user. NEVER use \boxed{} in your response. Your thinking process must follow the template below: 

 Your thoughts or/and draft, like working through an exercise on scratch paper. Be as casual and as long as you want until you are confident to generate a correct answer. think> Here, provide a concise summary that reflects your reasoning and presents a clear final answer to the user. Don't mention that this is a summary. Problem: [/SYSTEM_PROMPT][INST]user_message[/INST]

 reasoning_traces think> assistant_response[INST]user_message[/INST]

其他資源

試用:https://chat.mistral.ai/chat
論文:https://mistral.ai/static/research/magistral.pdf
API:http://console.mistral.ai/

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

參考資料

llama.cpp: https://github.com/ggml-org/llama.cpp

https://huggingface.co/mistralai/Magistral-Small-2506_gguf: https://huggingface.co/mistralai/Magistral-Small-2506_gguf

lmstudio(llama.cpp, MLX): https://lmstudio.ai/

https://lmstudio.ai/models/mistralai/magistral-small: https://lmstudio.ai/models/mistralai/magistral-small

[5]

ollama(llama.cpp): https://ollama.com/

[6]

https://ollama.com/library/magistral: https://ollama.com/library/magistral

[7]

unsloth(llama.cpp): https://huggingface.co/unsloth

[8]

https://huggingface.co/unsloth/Magistral-Small-2506-GGUF: https://huggingface.co/unsloth/Magistral-Small-2506-GGUF

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

TVB的四小花
2025-06-16 02:57:47
杜蘭特攜手威少加盟火箭,掘金甩約基奇,火箭重組沖冠局

杜蘭特攜手威少加盟火箭,掘金甩約基奇,火箭重組沖冠局

秘密清風
2025-06-27 14:01:20
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
楊瀚森自評現役模板:同為16順位申京 吃煎餅調侃和周琦夢幻聯動

楊瀚森自評現役模板:同為16順位申京 吃煎餅調侃和周琦夢幻聯動

醉臥浮生
2025-06-27 15:48:22
財政部:截至5月末全國地方政府債務余額512475億元

財政部:截至5月末全國地方政府債務余額512475億元

澎湃新聞
2025-06-27 10:36:06
艱難抉擇!湖北一高二考生被屏蔽,走還是不走?家長和學校犯難了

艱難抉擇!湖北一高二考生被屏蔽,走還是不走?家長和學校犯難了

火山詩話
2025-06-26 06:42:34
當年為什么查辦褚時健?

當年為什么查辦褚時健?

顧史
2025-06-09 20:26:22
又一個經濟奇跡——孟加拉國

又一個經濟奇跡——孟加拉國

古老板的老巢
2025-06-24 23:41:45
博伊爾斯女友社媒曬照慶祝男友被猛龍選中:哦嘿呀

博伊爾斯女友社媒曬照慶祝男友被猛龍選中:哦嘿呀

懂球帝
2025-06-27 08:40:19
洪森惱羞成怒,竟曝光英拉秘事,佩通坦絕地反擊,泰專機直飛中國

洪森惱羞成怒,竟曝光英拉秘事,佩通坦絕地反擊,泰專機直飛中國

嘆知
2025-06-23 10:34:33
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

墻頭草
2025-04-01 12:00:11
昔日女神成方圓老了!兩段婚姻失敗無子女,對愛失望選擇單身

昔日女神成方圓老了!兩段婚姻失敗無子女,對愛失望選擇單身

一盅情懷
2025-06-27 15:54:59
1小時賣了578億!小米YU7大定28.9萬輛遠超SU7,小米ADR暴漲12%,雷軍連喊三個“安全”

1小時賣了578億!小米YU7大定28.9萬輛遠超SU7,小米ADR暴漲12%,雷軍連喊三個“安全”

金融界
2025-06-26 23:50:34
塵埃落定,重返巴薩?內馬爾官宣,1年合同,年薪1500萬

塵埃落定,重返巴薩?內馬爾官宣,1年合同,年薪1500萬

東球弟
2025-06-27 12:34:08
笑暈!江蘇衛視又逮著常州一個勁嚯嚯!這回“遭殃”的你卻想不到

笑暈!江蘇衛視又逮著常州一個勁嚯嚯!這回“遭殃”的你卻想不到

深析古今
2025-06-27 17:14:39
萬萬沒想到!拒給馬筱梅做婚紗,緬懷大S的蘭玉,竟是他的前女友

萬萬沒想到!拒給馬筱梅做婚紗,緬懷大S的蘭玉,竟是他的前女友

史行途
2025-06-27 15:07:11
2025-06-27 21:44:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

本地
旅游
手機
公開課
軍事航空

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

小米MIX Flip2線下上手:體驗后,說說真實感受

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美媒揭美軍37小時奔襲伊朗細節

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 自治县| 清流县| 甘孜县| 台南市| 专栏| 古丈县| 江达县| 昌图县| 探索| 灵台县| 瑞昌市| 藁城市| 怀化市| 三穗县| 临汾市| 定安县| 句容市| 鲁甸县| 万荣县| 蓬莱市| 夏河县| 双牌县| 宜城市| 盐源县| 吴桥县| 扶风县| 特克斯县| 东乡县| 渝中区| 色达县| 沅陵县| 抚州市| 宁城县| 岳阳市| 沙洋县| 建宁县| 南靖县| 尚义县| 盐山县| 洛川县| 吉安市|