網易首頁 > 網易號 > 正文申請入駐

DeepSeek五連發，通義三“王炸”，杭州成了開源之都

2025-02-27 21:44:38　來源: 未盡研究

上海舉報

分享至

這一周，杭州城里，DeepSeek 連續五天公布代碼，阿里通義接連放出三個開源模型“王炸”。

DeepSeek的開源周剛過半，同城的阿里巴巴開始推波助瀾，前一日宣布了Qwen2.5-Max與推理版QwQ-Max的開源計劃，第二天又正式開源了Wan2.1（萬相）視頻模型。

Qwen2.5-Max對標DeepSeek V3的旗艦MOE模型，QwQ-Max是對標DeepSeek R1的深度推理模型，都屬于通義千問（Qwen）模型家族；Wan2.1是視頻生成模型，對標OpenAI的Sora，屬于通義萬相（Wan）模型家族。至此，阿里巴巴的開源大模型，實現了全模態、全尺寸的生態布局。

杭州正在從互聯網之城轉為AI開源之城。在互聯網時代，免費就是一種競爭策略，有利于應用場景的規模落地，形成網絡效應，建成平臺經濟；阿里巴巴也一直開源其微服務架構。在人工智能時代，開源與閉源，也日益成為AI創新與應用的兩條路線之爭。因為開源，DeepSeek已經改變了全球大模型前沿競爭與市場應用的游戲規則，阿里巴巴則要推動一種更加普惠的AGI。硅谷在閉源中發明萬能的AGI時，中國要主導AI開源生態，成為廉價好用的世界AI工廠。

阿里巴巴通往開源AGI之路

在DeepSeek前，阿里千問（Qwen）是中國開源模型的最強代表，迄今已覆蓋了視覺模型VL，音頻模型Audio，代碼模型Coder，數學模型Math，推理模型QwQ，視覺推理模型QvQ；尺寸往往小至1.5B，可以塞進手機，大至110B，追趕前沿閉源大模型。令人眼花繚亂。

與DeepSeek近乎橫空出世不同，阿里巴巴的大模型開源之路更有跡可循。自2023年8月首次開源通義千問Qwen以來，在全球最大AI開源社區Hugging Face上，基于Qwen的開源大模型的衍生模型數量已突破 10 萬，把Llama甩在了身后，穩居全球最大開源模型榜首；本周首次開源另一個系列的通義萬相（Wan），也將延續這一趨勢。

中國開源模型追近前沿封閉模型

（說明，按發布時間呈現不同模型的科學問答基準測評得分。OpenAI旗下模型為粉色，DeepSeek旗下模型為藍色，阿里巴巴旗下模型為橙色。QwQ-Max等部分模型暫未取得相應測評官方得分。）

阿里巴巴豪言要在未來三年投入至少520億美元在AI及其基礎設施上，希望能為整個大模型生態開源出通往AGI之路。從董事長蔡崇信到CEO吳泳銘，都認為AGI可能并不是某個全面超越人類能力的大模型，而是AI能靈活地部署到對人類有價值的各場景中，讓天下沒有難用的AI。

在2022年底ChatGPT時刻之前，阿里巴巴的大模型迭代相對緩慢。2020年，阿里達摩院啟動M6項目，即“通義”大模型系列的前身。后者于2022年9月發布，同時，它的底座模型M6-OFA，以及多項關鍵技術與核心能力面向全球開發者開源。2個月后，阿里巴巴聯手中國計算機學會（CCF）開源發展委員會共同推出了魔搭社區 ModelScope，成為國內開源生態的一部分。

2023年是勉力追趕的一年。2023年4月，通義千問Qwen大模型發布，與ChatGPT3.5相比還有較大差距。到了8月，阿里巴巴開源了其中的通用模型Qwen-7B和對話模型Qwen-7B-Chat，支持量化，支持用戶在消費級顯卡上部署和運行模型，成為國內首個宣布開源自研模型的科技巨頭。

此后，Qwen系列每個月都會有些進展。9月，Qwen-14B及其對話模型開源。11月，Qwen-72B及其對話模型開源，足以對抗當年7月Meta開源的Llama 2-70B；同時開源的還有Qwen-1.8B系列，推理2K長度文本內容僅需3G顯存，甚至可以裝進智能手機，以及音頻模型 Qwen-Audio。阿里巴巴開始以“全尺寸、全模態”的開源力度挑戰Meta的開源生態，進入國際開發者視野。

與DeepSeek瘋狂迭代一樣，2024年也是阿里巴巴開源模型狂飆突進的一年。在這一年里，阿里巴巴幾乎發布即開源，迅速從Qwen1.5迭代到Qwen2乃至當前主力Qwen2.5系列。

2月，趕在春節前，Qwen1.5系列模型上線，參數規模最小0.5B，最大110B，還包括Qwen系列的首個MoE模型Qwen1.5-MoE-A2.7B。盡管Qwen1.5系列仍然落后于當時的GPT-4-Turbo，但最大參數規模版本已經超越了GPT-3.5-Turbo-0613，在當時LMsys的chatbot-arena上排到第十；它的MOE模型也可以媲美Mistral 7B。阿里巴巴自評，到了這一階段，終于躋身開源模型第一梯隊。

6月，Qwen2系列模型開源。相比上一代的Qwen1.5，Qwen2在邏輯推理、多語言能力、長文本處理、代碼、數學等能力獲得了全面提升。其中，Qwen2-72B一躍成為當時全球性能最強的開源模型，基準測試超過美國最強開源模型Llama3-70B，也超過一眾中國閉源大模型。Meta的Llama3-70B發布于4月，當時趕超了Gemini Pro 1.5，成為開源社區的分水嶺，開始與閉源模型在前沿較量。據Qwen2的技術報告，當時全尺寸模型都使用了上一代模型個別尺寸中得以驗證的GQA技術，大大降低了顯存占有，加快了模型推理速度。Qwen2火速得到了Ollama等全球重要的開源生態伙伴的支持。

全球大模型開源社區Hugging Face首席執行官Clem Delangue總結道：Qwen 72B 稱王，中國開源模型總體上占主導地位。這也是通義Qwen系列模型首次登上Hugging Face開源模型排行榜榜首。

開源的生態，最終服務于阿里云，與通義大模型適配到一起。阿里也提出，要打造AI時代最開放的云；而模型開源，也對齊了阿里“讓天下沒有難做的生意”的使命。

9月的阿里云棲大會上，Qwen2.5系列模型發布，多數立即開源，涵蓋了多個尺寸的語言模型、多模態模型、數學模型和代碼模型。每個尺寸都有基礎版本、指令跟隨版本和量化版本，總計上架了 100 多個模型，刷新了業界紀錄。其中，開源模型Qwen2.5-72B性能超越了Llama 3.1-405B。Qwen2.5系列也是目前阿里巴巴對外提供對話服務與API服務的主力。

根據阿里云CTO周靖人的介紹，通義開源模型累計下載量已經突破4000萬，通義原生模型和衍生模型總數超過5萬，成為僅次于Meta旗下開源模型Llama系列的世界級模型群。

12月，深度推理模型QwQ-32B-Preview與多模態推理模型QVQ-72B-Preview先后開源，代表開源生態，加入到與OpenAI o1推理模型的競爭中。

2025年剛過去不到兩個月，阿里巴巴幾乎端出了手上所有的王牌。多模態與推理與智能體是重頭戲。

1月，Qwen2.5-VL與Qwen2.5-1M開源。前者是Qwen家族的旗艦視覺語言模型，具備操作電腦和手機的視覺智能體的潛力。剛開源不久的QVQ-72B，正是基于上一代的Qwen2-VL-72B研發的。這次，阿里巴巴直接把最新的都開源出來了，增強了對時間和空間尺度的感知能力。后者則是可能支持百萬token上下文的開源模型。

同月，阿里巴巴發布Qwen2.5-Max，這是超大規模的MOE架構的旗艦模型，使用超過20萬億tokens的預訓練數據，超越了同為MOE架構的DeepSeek的V3，以及最大開源稠密模型Llama-3.1-405B。

2月25日，阿里巴巴宣布將在不久的將來，以Apache 2.0許可協議開源發布Qwen2.5-Max，以及基于Qwen2.5-Max構建的深度思考模型QwQ-Max-Preview。后者支持聯網，不僅推理能力更強，同時在智能體相關工作流中也有不錯的表現。

相比之下，DeepSeek采用的是更為開放的MIT許可，它對用戶幾乎沒有限制，允許幾乎任何形式的使用、修改和分發，甚至可以將代碼用于閉源項目。 Apache許可增加了專利授權和衍生作品的限制。

2月26日，阿里巴巴宣布視覺生成基座模型Wan2.1開源。它包括1.3B與14B兩個尺寸，各自擁有覆蓋文本生成視頻（T2V）和圖像生成視頻（I2V）任務的具體模型。其中，前者僅需8GB多的顯存，就能生成480P視頻，用RTX 4090的話，4分鐘內生成5秒長短的視頻。對比一下，谷歌去年12月發布的視頻生成模型Veo 2，每秒收費50美分。

通義萬相圖像生成大模型于2023年7月首次亮相，于2024年9月全面升級，并免費向所有用戶開放體驗。Wan2.1的開源，標志著阿里云實現了全模態、全尺寸的開源。

杭州，開源AI之都

世界上三個最前沿的開源模型，Llama, DeepSeek, Qwen，已經有兩個在中國，就在杭州。開源創新，正在成為AI的杭州精神。

本周前四天，DeepSeek分別開源了FlashMLA、DeepEP、DeepGEMM，以及DualPipe、EPLB、ProfileData，與以往注重分享模型優化理念不同，本輪開源聚焦于人工智能基礎設施的優化。

FlashMLA是專為英偉達Hopper架構GPU設計的高效 MLA（多頭潛在注意力）解碼內核。DeepSeek在V2模型中引入了MLA機制，主要解決推理時KV Cache（鍵值緩存）占用過多內存導致的性能瓶頸。開源FlashMLA，有助于開源社區以更低的成本獲得更好的推理。

DeepEP是面向MoE模型訓練與推理的開源EP通信庫，同樣專為英偉達Hopper架構GPU設計。以往，MOE架構的不同專家模塊之間的通信效率，直接影響到整個模型的訓練和推理速度。開源DeepEP，相當于加速全球的大模型訓練，也就相當于加速創新迭代；加快推理速度，也就是相當于加速應用落地。

DeepGEMM是一個支持密集和MoE GEMM（通用矩陣乘）的FP8GEMM庫。通常，使用FP8（8位浮點數）格式是犧牲一些精度去換取更高的速度與效率，但DeepGEMM通過精細的縮放技術，盡可能地減少了精度問題。它的核心計算函數僅約 300 行代碼，被其他開發者譽為比英偉達還懂GPU。

DualPipe、EPLB、ProfileData是三套并行優化策略，前兩者分別解決流水線并行、專家并行的通信效率與負載平衡，第三個則是性能分析數據，以更好地優化與執行前兩套工具。傳統的流水線并行會出現執行各自任務過程中，一個GPU等待另一個GPU的間隙，DeepSeek就是要擠出這些“氣泡”。

同為杭州“六小龍”的宇樹科技，去年底至今，也陸續開源了從訓練到模擬再到真機運行的整個強化學習套件RL GYM。此外，宇樹科技針對開源機器人系統R(obot)OS推出的模擬包、使用蘋果Vision Pro對G1進行遙操作控制的工具及訓練數據集等，都在Github獲得追捧。

開源、共享、加速

阿里巴巴與DeepSeek的開源，已經改變了大模型的全球競爭格局，也將改變大模型應用市場的發展方向，

更高性價比的開源模型，正在推動基于前沿閉源大模型的AI服務大幅降價，惠及更多用戶。OpenAI的DeepResearch，現在將從Pro用戶（每月200美元）向所有Plus用戶（每月20美元）開放，每月10 次權限，Pro 用戶的權限則從每月100次增加到120次。在發布3天后，馬斯克也將Grok 3免費開放使用，直至服務器崩潰為止。微軟也向所有Copilot用戶，無限免費提供Copilot語音和深度思考模式。IBM本周也發布了針對企業的開源的推理模型Granite 3.2。

閉源模型廠商的策略，則是閉源最新一代模型，并開源上一代模型。奧特曼承認在開源問題上OpenAI站在了歷史的錯誤一方，并開放投票，讓用戶決定，下一個是開放o3-mini還是手機端側模型。這意味著OpenAI沒有明確的開源路線圖。谷歌目前的策略是閉源最強大的Gemini系列，但開放稍弱一點的Gemma模型。馬斯克的 xAI于去年 3 月發布了 Grok 1 推理時間代碼的開源版本，并最近承諾在未來幾周內發布 Grok 2 的開源版本。

在國內，DeepSeek的巨大成功，讓開源幾乎成為了必選項。騰訊混元的Hunyuan-Large已經開源，擁有 389B 總參數和 52B 激活參數，略強于DeepSeek-V2.5，接近 LLama3.1-405B。百度則宣布了將陸續推出文心大模型4.5系列，并于6月30日起正式開源。字節跳動則開源了小體積的多模態模型Valley等。此外，智譜、百川智能、零一萬物、階躍星辰、月之暗面與MiniMax也都開源了部分模型；有些玩家已經退出了前沿模型的角逐，開始追求商業化。

中國大模型創新不斷縮短與美國前沿閉源大模型的差距，如今，兩個月內就可以基本復現出接近或相當水平。相應地，大模型服務的成本卻以每年十倍的幅度下降。在更強度性價比的商業化面前，閉源模型早已沒有護城河。為平抑API需求高峰，DeepSeek本周又宣布推出最高75%的錯峰折扣。

在規模市場上快速應用創新不斷取得成功的中國，將再次成為開源模型的最大受益者。最近，人民日報刊發中國工程院院士、鵬城實驗室主任高文的評論文章，呼吁“構建人工智能開源開放創新體系”，著眼點之一，正是“人工智能開源共享是加速技術創新并助推產業升級的強力推手”。開源推動了廣泛的二次開發可能性；降低了應用門檻，拓展了業務需求邊界；同時提高技術透明度與可解釋性，有利于推動技術標準化。

中國在開源模型創新上的成功將隨著應用于服務擴散至全球。Nature點評稱，中國的大模型戰略，并非一定要取得全球領先，而是利用底層技術開發出價格實惠、具有商業可行性的業務解決方案。這也許是中國對于AGI的主張，通用意味著普惠。

這與過去十年中國先進制造改變世界如出一轍。未來十年，中國AI平權也將惠及全球用戶。這條新的絲路的起點，很可能就在杭州。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.